多组学分析及可视化R包

作者: 生物信息与育种 | 来源:发表于2020-03-30 12:11 被阅读0次

    最近打算开始写一个多组学(包括宏基因组/16S/转录组/蛋白组/代谢组)关联分析的R包,避免重复造轮子,在开始之前随便在网上调研了下目前已有的R包工具,部分罗列如下:

    1. mixOmics

    应该是在多组学领域知名度最高的一个R包,有专门的团队,做了十余年了,引用量也比较高。

    官网:http://mixomics.org/
    文章:mixOmics: An R package for ‘omics feature selection and multiple data integration
    Github:https://github.com/mixOmicsTeam/mixOmics
    Bookdown:https://mixomicsteam.github.io/Bookdown/

    特点:

    • 组学数据广,基因/转录/蛋白/代谢都有涉及(是我的榜样);
    • 独特的多变量降维分析和可视化方法(我统计没学好,所以不做太多统计方法,重点在于可视化,包括多种关联角度的展示方式)。

    主要内容:
    统计方法:PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
    可视化:2D和3D散点图/相关性网络/聚类/相关性圈图/箭头图/DIABLO圈图/载荷图

    此外,这个包还自带了不少demo数据,具体可看官方文档。

    image.png

    2. tRanslatome

    2014年就发表了,好在一直都有维护。
    文章:tRanslatome: an R/Bioconductor package to portray translational control
    Bioconductor:https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
    作者博客:http://www.mybiosoftware.com/tag/translatome
    Github:https://github.com/tomateba/tRanslatome(五年前的源码)

    特点:

    • 组学:主要是针对基因表达量的关联,包括转录组、翻译组和蛋白组;
    • 统计方法:Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
    • 可视化:scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots
    image.png

    3. OmicsARules

    最近新出的一个R包,创建了一种新的关联方法。

    文章:OmicsARules: a R package for integration of multi-omics datasets via association rules mining
    Github:https://github.com/BioinformaticsSTU/OmicsARules

    特点:

    • 主要针对基因组和转录组数据,包括基因突变位点和非编码RNA;
    • 发明一种Lamda3的度量方法创建关联规则,可视化不是重点。
    image.png

    4. iCluster / iClusterPlus

    十年前开发的iCluster算法(联合潜在变量模型),针对癌症数据多组学聚类。去年的时候又开发了一个新的iClusterPlus包,做了一些升级。

    文章1:Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
    Github:https://github.com/cran/iCluster
    Bioconductor:https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
    文章2:A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data

    image.png

    这种基于模型算法的工具我只能望洋兴叹,会用就不错了。

    5. integrOmics

    十多年的工具,虽然当年发了Bioinformatics,后面没有维护更新,废了。

    文章:integrOmics: an R package to unravel relationships between two omics datasets
    Github:https://github.com/cran/integrOmics

    6. moCluster

    这也是一种算法,和icluster类似,主要整合数据聚类,用于细胞或疾病分子分型等。应用场景相对比较单一。

    7. MCIA

    这个包又可称omicade4: Multiple co-inertia analysis of omics datasets,即多元协惯量分析。一种多元统计分析方法,类似于PCA的展示吧,比较有限。

    Bioconductor:http://bioconductor.org/packages/release/bioc/html/omicade4.html
    Github:https://github.com/aedin/omicade4

    8. 其他

    其他还有不少R包做组学数据整合,或是基于新的算法,或是仅针对基因突变和基因表达关系等方面进行关联,相对而言比较冷门,如:

    • CNAmet
    • PLRS
    • NuChart
    • MOO
    • Mergeeomics(这个包主要做GWAS/TWAS/EWAS/eQTL等,有点意思)

    除了以上常用的R包,更多的多组学工具和方法可参考这一篇综述:https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml

    相关文章

      网友评论

        本文标题:多组学分析及可视化R包

        本文链接:https://www.haomeiwen.com/subject/kdvmuhtx.html