差异基因的检测方法很多,但生物学家偏好使用的是fold change(FC)和t-test。猜测因为一是它们比较简单,二来好解释。很多研究表明,改进的t-test可以提高top gene list的质量。现在简单的说一下原理
1 Fold change 或log ratio
指两个组group之间每个gene平均值在log2水平的差异。
FC=3=log2A-log2B=log(A/B)
所以,A/B=2^3=8
这样有一个缺点就是高的FC并非真正的差异,而是来自变异,并无生物学意义。
值得注意的是,基于FC的gene list比基于t-test的可重复性强,但这不代表着更准确。
所以,如果关注基因表达的绝对变化,则看FC
如果关注潜在的噪音,则用t-test。
也就是说,FC只考虑到组间差异,二未考虑组内变异。
2 T-test
差异性=signal/noise,期中signal即为组间变异,二noise为组内变异
groupA和groupB的差异XA均值-XB均值,这个同FC的M均值。受3个因素影响
(1)Fold change(M均值):M均值越大,t值越大,也就是说signal大
(2)Variance(s):s越小,t越小,就是组内差异大,即noise大
(3)sample size(n):n越大,t越大,即M均值和s同样的情况下,n越大,结果越精确。
上面可以看出,即使FC不大,但s值足够小,也会有大的t值,所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。
其中,s0是个小的正数。引入s0消除s过小
可见,若S小,则S0作用大,反之,S大,S0作用小。
芯片分析中的SAM(significant analysis of microarrays)即这种方法。
步骤
(1)samples在AB之间随机打乱重拍1000次,d-value依次计算,这些d-value的均值作为整个gene的d-value,观察到的d-value偏离期望d-value越大,越可能是真正的差异gene。
(2)随着作者的cut off(德尔塔value)被选择,需要权衡差异基因数目和假阳性结果的数目(FDR).
继而,有基于贝叶斯理论的moerated t-test。也是最常用的。
3通过机器学习方法进行特征基因选择
包括贝叶斯模型,支持向量或随机森林。
网友评论