相关性分析是生信研究中一门比较常规的手段,经常出现在各种Pipeline的下游。对于微生物研究而言,分离培养费时费力,并且难以获取环境中某个群落的全部信息。因此借助高通量测序技术,获取环境中微生物群落的物种或者功能基因信息,可以有效提高研究效率与覆盖度,帮助我们理解自然界中微生物群落的本来面貌。而相关性分析,可以帮助我们利用一些信息,比如丰度变化,构建互作网络,探究自然环境中微生物之间的交互作用。
对于两个研究对象,其间的互作可以用一些传统的统计学方法评估,比如三大相关性系数,Pearson,Spearman和kendall。
而对于复杂的群落结构,相关性系数本身当然能够满足我们的需求,但是由于计算量的庞大,往往我们需要借助一些成熟的工具帮助我们实现。在FlashWeave之前已经有许多工具帮助我们实现这一目的,比如sparCC,SpiecEasi,eLSA,coNet。但这些方法都有一定局限性,就是不能检测微生物之间的相互作用是直接还是间接的。这样会使得产生的网络中存在许多假阳性,同时在计算性能上不具备高分辨率。今天推荐一款非常方便的网络构建工具--FlashWeave。
FlashWeave是在2018年推出的,我是从文章在bioRixv上预发表的时候被推荐,并开始关注和使用的。最终这篇文章在2019年发表于cell system上[1]。
以下是关于FlashWeave的两点最基本的介绍:
首先,FlashWeave运行速度非常快。它是由Julia编程,基于Local-to-Global Learning(LGL)方法。这种方法可以在多变量中能去除假阳性,已经成功应用于癌症预测,药物和药物间相互作用以及基因调控网络推断中
Local-to-Global Learning
FlashWeave利用这种方法,能够在大量多样的微生物高丰度数据集中快速推导高度解析微生物直接相互作用。文章中给出了FlashWeave与其他网络构建工具运行速度的对比。
运行时间对比
从上图中我们可以看到无论是在处理海洋微生物数据(Tara Oceans)或是人类微生物组数据(HMP)的时候,FlashWeave都在运行速度上具有明显的优势(FlashWeave内含不同的运行模式,会在后面介绍)
FlashWeave在提高运行速度的同时还保证了网络构建的准确性。FlashWeave是一种基于灵活的概率图模型(Probabilistic Graphical Model )结构的方法,利用马尔可夫毯搜索,能够有效降低间接相关。FlashWeave还可以利用元变量(meta variable ,在这里可以理解为丰度数据外输入的环境数据)进一步降低假阳性联系,并建立微生物与环境之间关系。除了这些我们观测到有差异的元变量,自然界中还有许多不为人知,隐藏的元变量,这些变量也有可能影响网络的预测。特别这种影响在大规模的研究中影响非常大,因为大规模研究一般会有很多来源不同或采用不同方法产生的数据集,这就使得数据在一开始就具有比较高的内在多样性和复杂性。FlashWeave可以消减这些变量对网络构建带来的影响。
预测表现对比
这里我们可以看到FlashWeave在网络预测中精准率和召回率都有非常不错的表现。
Github地址:
https://github.com/meringlab/FlashWeave.jl
[1] Janko Tackmann, Joa ̃ o Frederico Matias Rodrigues, and Christian von Mering. (2019).Rapid Inference of Direct Interactions in Large-Scale Ecological Networks from Heterogeneous Microbial Sequencing Data. Cell Systems. https://doi.org/10.1016/j.cels.2019.08.002
网友评论