多组学分析及可视化R包

作者: 生物信息与育种 | 来源:发表于2020-03-30 12:11 被阅读0次

最近打算开始写一个多组学（包括宏基因组/16S/转录组/蛋白组/代谢组）关联分析的R包，避免重复造轮子，在开始之前随便在网上调研了下目前已有的R包工具，部分罗列如下：

1. mixOmics

应该是在多组学领域知名度最高的一个R包，有专门的团队，做了十余年了，引用量也比较高。

官网：http://mixomics.org/
文章：mixOmics: An R package for ‘omics feature selection and multiple data integration
Github：https://github.com/mixOmicsTeam/mixOmics
Bookdown：https://mixomicsteam.github.io/Bookdown/

特点：

组学数据广，基因/转录/蛋白/代谢都有涉及（是我的榜样）；
独特的多变量降维分析和可视化方法（我统计没学好，所以不做太多统计方法，重点在于可视化，包括多种关联角度的展示方式）。

主要内容：
统计方法：PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
可视化：2D和3D散点图/相关性网络/聚类/相关性圈图/箭头图/DIABLO圈图/载荷图

此外，这个包还自带了不少demo数据，具体可看官方文档。

image.png

2. tRanslatome

2014年就发表了，好在一直都有维护。
文章：tRanslatome: an R/Bioconductor package to portray translational control
Bioconductor：https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
作者博客：http://www.mybiosoftware.com/tag/translatome
Github：https://github.com/tomateba/tRanslatome（五年前的源码）

特点：

组学：主要是针对基因表达量的关联，包括转录组、翻译组和蛋白组；
统计方法：Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
可视化：scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots

image.png

3. OmicsARules

最近新出的一个R包，创建了一种新的关联方法。

文章：OmicsARules: a R package for integration of multi-omics datasets via association rules mining
Github：https://github.com/BioinformaticsSTU/OmicsARules

特点：

主要针对基因组和转录组数据，包括基因突变位点和非编码RNA；
发明一种Lamda3的度量方法创建关联规则，可视化不是重点。

image.png

4. iCluster / iClusterPlus

十年前开发的iCluster算法（联合潜在变量模型），针对癌症数据多组学聚类。去年的时候又开发了一个新的iClusterPlus包，做了一些升级。

文章1：Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
Github：https://github.com/cran/iCluster
Bioconductor：https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
文章2：A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data

image.png

这种基于模型算法的工具我只能望洋兴叹，会用就不错了。

5. integrOmics

十多年的工具，虽然当年发了Bioinformatics，后面没有维护更新，废了。

文章：integrOmics: an R package to unravel relationships between two omics datasets
Github：https://github.com/cran/integrOmics

6. moCluster

这也是一种算法，和icluster类似，主要整合数据聚类，用于细胞或疾病分子分型等。应用场景相对比较单一。

7. MCIA

这个包又可称omicade4: Multiple co-inertia analysis of omics datasets，即多元协惯量分析。一种多元统计分析方法，类似于PCA的展示吧，比较有限。

Bioconductor：http://bioconductor.org/packages/release/bioc/html/omicade4.html
Github：https://github.com/aedin/omicade4

8. 其他

其他还有不少R包做组学数据整合，或是基于新的算法，或是仅针对基因突变和基因表达关系等方面进行关联，相对而言比较冷门，如：

CNAmet
PLRS
NuChart
MOO
Mergeeomics（这个包主要做GWAS/TWAS/EWAS/eQTL等，有点意思）

除了以上常用的R包，更多的多组学工具和方法可参考这一篇综述：https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml

多组学分析及可视化R包

1. mixOmics

2. tRanslatome

3. OmicsARules

4. iCluster / iClusterPlus

5. integrOmics

6. moCluster

7. MCIA

8. 其他

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信分析工具包

科研信息学

生信工具

多组学知识基础

R语言

r

多组学

作图