@文章翻译自SERRF主页
SERRF是什么
SERRF的全名叫Systematical Error Removal using Random Forest
- SERRF是为大规模非靶向代谢组学数据设计的,基于QC样本进行归一化的方法
![](https://img.haomeiwen.com/i6673686/96ec627ef80b53b8.png)
SERRF是如何工作的
- SERRF采用的是
机器学习
——随机森林的方法来对非靶向代谢组学数据进行归一化; - 对于每一个化合物,SERRF利用利用QC样本(QC样本制备的常用方法为:取等量各生物学样本混合而成,可以在样本制备前,也可以在样本制备后做。)来构建随机森林模型,用于评估
系统误差
(这里的系统误差包括:批次效应,以及day-to-day variation等); - 然后通过该模型将实验样本进行归一化处理
注:在SEFFR算法中,采用的是QC样本交叉验证相对标准偏差(或称为变异系数)的值来评估模型的性能
![](https://img.haomeiwen.com/i6673686/d39ba00eb5acc744.png)
SEFFR与其它校正方法有什么不同
- 目前关于样品的校正方法可以分为三大类:
- data-driven normalizations
- 基于internal-standard-(所谓的内参)归一化方法
- 基于QC样本的校正方法,而SERRF就是采用的QC样本来对代谢物强度归一化
- 与其它同是基于QC归一化方法(如e.g. batch-ratio, LOESS, SVM and eigenMS normalization)不同,SERRF的核心思想是:系统误差不仅和批次效应和样品的进样顺序(时间序列导致的误差),还和其它代谢物之间的行为相关。
- 利用随机森林的算法,SERRF自动选择相关的QC样本中的化合物来归一化系统误差,如下图所示:
![](https://img.haomeiwen.com/i6673686/621b31ec8249cf7c.png)
为什么选择随机森林
随机森林的算法,是由Breiman开发的,其实一种非参、非线性、不容易过拟合等优点,对离群值和噪音相对来说比较稳健以及可以快速训练。所以这些属性赋予了RF适用于对高纬非靶向代谢组学数据进行归一化。
- 除此之外,RF模型还可以考虑将相关的代谢物自动对重要的化合物非配更高的权重
SERRF性能如何
我们不能说某一个归一化方法是最好的,但是SERRF有下面的一些优点:
- P20的一个数据集(负离子模式):QC样本5重蒙特卡罗交叉验证 Monte-Carlo Cross-ValidatedRSD值平局值的中位数从原始的26.5%下降到6.3%。
注:交叉验证是处理数据过拟合的常用方法
SERRF使用
本地下载到R语言
1 | 下载SERRFweb包
rm(list=ls())
library(devtools)
install_github("linliliaabbcc1024/SERRFweb")
library(SERRFweb)
2 | 使用
注:文件准备如下:
![](https://img.haomeiwen.com/i6673686/2c725ddda0bf5e30.png)
# 文件转备好,直接输入下列命令
SERRF(input = "SERRF example dataset2.xlsx")
可以得到如下文件:
![](https://img.haomeiwen.com/i6673686/736d82e7d0319472.png)
网页版使用
1 | 网址
点击这里SERRF网页版分析
2 | 使用方法如下
![](https://img.haomeiwen.com/i6673686/90e8493ffb42a30e.png)
网友评论