美文网首页RNA Seq流程RNA-seqTCGA
RNA-seq数据计数矩阵标准化

RNA-seq数据计数矩阵标准化

作者: sober01 | 来源:发表于2018-07-24 10:21 被阅读13次

    7种常见的标准化方法,它们分别是:

    1. Total count,TC
    2. Upper Quartile, UQ
    3. Median, Med
    4. DESeq:前提假设大多数基因不是差异表达的基因,该方法可使用DESeq Bioconductor package。
    5. Trimmed Mean of M-values(TMM): 前提假设大多数基因不是差异表达的基因,该方法可使用edgeR Bioconductor package。
    6. Quantile (Q):可使用Bioconductor包limma的normalizaQuantiles()功能。
    7. Reads Per Kilobase Per Million mapped reads (RPKM),可使用cufflinks。
    

    所有这些方法又可根据其原理而分为两类,第一类基于库的大小(TMM,DESeq),第二类基于read数目的分布(TC,UQ,Med,Q,RPKM)。

    第一类中的TMM,DESeq的前提假设都是大多数基因的表达是没有差异的,然后,基于这个假设根据均值,或者中值,比例等提出一个标准化的因子进行标准化。

    但是对于TMM这种方法,比例的计算是根据每次测序的数据和参考数据进行比较;而DESeq却是考虑了所有的样本。

    第二类标准化的方法的前提则是read数目的分布应该具有相似性,或者是单四分位数(TC,Med,UQ,RPKM),或者是全部的四分位数(Q)。

    http://www.biotrainee.com/thread-490-1-1.html

    1. 最好的两种标准化方法:DESeq和edgeR的TMM

    http://blog.genesino.com/2018/05/deseq2/
    http://www.oebiotech.com/Mobile/MArticles/ghjsrnacxs.html
    http://yangfangs.github.io/2016/04/10/RNAseq-edgeR-DEgenes-analysis/

    • TMM scaling normalization for count matrix(TMM方法均一化count矩阵)
        分析模块,采用edgeR的TMM(trimmed mean of M-values)方法对测序片段计数矩阵(Count Matrix)进行标准化处理。
        如果不提供基因的长度信息文件,将只进行TMM标准化处理。
        如果提供基因的长度信息文件,将使用TMM方法将Count数据转换为FPKM数据,输出FPKM矩阵。

    注:标准化处理之后的矩阵可用于PCA、热图、聚类分析等。

    TMM方法均一化count矩阵

    http://www.yunbios.net/h-nd-376.html
      输入:
    1、测序片段计数矩阵(Count Matrix)。
      示例:

         T4    T5    T6    T7    T8    T9
    BM590_A0001         565  505  843  286  247  1909
    BM590_A0002         362  295  512  124  118  876
    BM590_A0003         235  213  333  126  47     1021
    BM590_A0004         291  325  447  404  878  1600
    BM590_A0005         530  607  848  709  1194         2001
    BM590_A0006         456  425  786  287  139  1857
    BM590_A0007         21     16     27     1       3       26
    BM590_A0008         282  252  425  85     46     843
    

    2、基因长度信息文件(可选),其中第一列为基因名称、第二列为对应的序列长度。

    示例:
    BM590_A0001         1584
    BM590_A0002         1131
    BM590_A0003         1155
    BM590_A0004         783
    BM590_A0005         957
    
    输出: TMM标准化处理后的矩阵(Matrix)。

    示例:

         T4    T5    T6    T7    T8    T9
    BM590_A0001         390.11      379.54      386.52      288.73      372.47      327.73
    BM590_A0002         350.06      310.51      328.78      175.32      249.21      210.62
    BM590_A0003         222.52      219.54      209.39      174.45      97.20        240.38
    BM590_A0004         406.46      494.13      414.62      825.09      2678.41    555.67
    BM590_A0005         605.70      755.09      643.55      1184.73    2980.14    568.58
    BM590_A0006         306.72      311.16      351.08      282.26      204.19      310.56
    BM590_A0007         263.99      218.94      225.39      18.38        82.37        81.27
    BM590_A0008         284.78      277.01      285.01      125.51      101.45      211.67
    

    相关文章

      网友评论

        本文标题:RNA-seq数据计数矩阵标准化

        本文链接:https://www.haomeiwen.com/subject/rxcemftx.html