差异基因检测方法

作者: Y大宽 | 来源:发表于2018-10-23 21:58 被阅读35次

    差异基因的检测方法很多,但生物学家偏好使用的是fold change(FC)和t-test。猜测因为一是它们比较简单,二来好解释。很多研究表明,改进的t-test可以提高top gene list的质量。现在简单的说一下原理

    1 Fold change 或log ratio

    指两个组group之间每个gene平均值在log2水平的差异。
    FC=3=log2A-log2B=log(A/B)
    所以,A/B=2^3=8
    这样有一个缺点就是高的FC并非真正的差异,而是来自变异,并无生物学意义。
    值得注意的是,基于FC的gene list比基于t-test的可重复性强,但这不代表着更准确。
    所以,如果关注基因表达的绝对变化,则看FC
    如果关注潜在的噪音,则用t-test。
    也就是说,FC只考虑到组间差异,二未考虑组内变异。

    2 T-test

    差异性=signal/noise,期中signal即为组间变异,二noise为组内变异
    groupA和groupB的差异XA均值-XB均值,这个同FC的M均值。受3个因素影响
    (1)Fold change(M均值):M均值越大,t值越大,也就是说signal大
    (2)Variance(s):s越小,t越小,就是组内差异大,即noise大
    (3)sample size(n):n越大,t越大,即M均值和s同样的情况下,n越大,结果越精确。


    上面可以看出,即使FC不大,但s值足够小,也会有大的t值,所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。

    其中,s0是个小的正数。引入s0消除s过小
    可见,若S小,则S0作用大,反之,S大,S0作用小。
    芯片分析中的SAM(significant analysis of microarrays)即这种方法。
    步骤
    (1)samples在AB之间随机打乱重拍1000次,d-value依次计算,这些d-value的均值作为整个gene的d-value,观察到的d-value偏离期望d-value越大,越可能是真正的差异gene。
    (2)随着作者的cut off(德尔塔value)被选择,需要权衡差异基因数目和假阳性结果的数目(FDR).

    继而,有基于贝叶斯理论的moerated t-test。也是最常用的。

    3通过机器学习方法进行特征基因选择

    包括贝叶斯模型,支持向量或随机森林。

    相关文章

      网友评论

        本文标题:差异基因检测方法

        本文链接:https://www.haomeiwen.com/subject/rxjzzftx.html