第十章微生物组数据的成分分析

作者: ZMQ要加油呀 | 来源:发表于2020-11-07 10:30 被阅读0次

简介
第十章微生物组数据的成分分析
微生物组数据挖掘新方法tmap
DESeq2数据校正算法
为什么宏基因组数据分析比较难？
DESeq2在微生物组数据中的应用
《专家共识》|如何评价单菌基因组质量
Qiime2 持续更新
kraken软件操作手册
微生物群落多样性测序与功能分析

10.1 Introduction to Compositional Analysis（成分分析导论）

①什么是成分数据？

根据韦伯斯特第二版新大学词典，作文是“将部分或元素组合在一起形成一个整体的行为”，或者是“这些部分组合或相关的方式：构成”。成分数据定量地描述了整体的各个部分，并且只提供了它们的组成部分之间的相关信息。因此，成分数据以整体或部分总量的比例或分数存在，只传达相对信息，并且具有以下特性：组成元素是非负的，并且总和是统一的。从实践的角度来看，如果研究人员真的只对相对频率感兴趣，而不是对数据的绝对量感兴趣，那么这些数据就是成分数据。因此，成分数据经常出现在不同的科学领域：基因组学、种群遗传学、人口学、生态学、生物学、化学、地质学、岩石学、沉积学、地球化学、行星学、心理学、市场营销学、调查分析、经济学、概率和统计学。

② Aitchison Simplex

从数学上讲，如果一个数据包含D个和为1的多个非负数部分或任何常数和约束。它可以正式地表述为：

该公式指出，成分数据可以用具有正分量的常数和实向量来表示。这将成分数据的样本空间定义为一个超平面，称为单纯形。请注意，k是任意的。根据测量单位或重新缩放的不同，频繁值为1 (per unit, proportions), 100 (percent, %), 106(ppm, parts permillion), and 109(ppb, parts per billion)。

③ 关于标准统计方法的问题

标准的数据分析技术，如相关分析，依赖于真实空间中Euclidean几何的假设。将它们应用于成分数据可能会产生误导结果，因为成分数据表示样本空间单纯形的特殊属性。在第3章“成分数据的统计分析”回顾和讨论了成分数据分析中的一些具有挑战性的问题。我们在这里总结了要点，并给出了进一步的解释。首先，有一个虚假的相关性，这导致很难以任何有意义的方式解释比例之间的相关性，主要是因为不相关的比例不一定是独立的。早在1897年，pearson首先观察到变量比率之间的“伪相关”问题。即，虽然统计上独立的变量X、Y和Z不相关，但它们的比率X/Z和Y/Z必须是相关的，因为它们的公约数。例如，在微生物组研究中，相对丰富的数据可以使统计上独立的分量似乎是相关的。因此，相对丰度的关联被认为是错误的，而相对丰度的相关分析完全不能告诉我们任何事情。其次，在成分数据分析中出现了高维的困难，这导致了多变量变异性模式的图形扭曲。当分析局限于选择几个子成分而不是作为整体的成分时，它就会投射出部分分析，从而失去多变量变异性模式的图景。由于单位和约束将组成矢量限制在一个单纯形中，因此发生了图形失真：在熟悉的空间(如R2)中看到的图形模式不能保证是相同的。第三，常和问题(也称为负偏差问题)使得用通常的方法解释相关性和协方差变得困难。传统的方法是通过乘积矩协方差来表示D部分合成向量的组成之间的相互依赖关系。然而，协方差结构是不可解释的。这些困难有多种表现形式：否定偏向困难、次成分困难、基础困难和零关联困难。受单位和或常和约束的约束，(原始)协方差矩阵的每行中必须至少有一个负元素。换句话说，它的条目中至少有D个必须是负数。例如，在每个样本中，如果生态系统中某一种分类群的数量增加，则其他一种或多种分类群的数量必须减少。因此，在协方差或相关矩阵的非负确定性的约束下，相关的值不在通常的区间内(−1，1)。这就是所谓的负偏向难度。类似地，单位和约束排除了子合成的原始协方差矩阵与完整合成的原始协方差矩阵之间的关系。此外，当我们从全组成转移到它的子组成时，原始相关性可能会发生很大的变化，并且当我们形成子组成时，方差可能会显示出不同的和不相关的排序。艾奇森称这为副作曲难度。当我们从基向量构造合成时，构造向量元素之间的相关性与它们的基向量不同，这导致很难将合成的原始协方差矩阵与其基的协方差矩阵联系起来：基难度。此外，由于负偏差，很难使用零值来表示随机变量的无相关性或独立性。实际上，碱基的不相关成分会产生零相关性，但不一定是零。这里的零相关概念类似于皮尔逊的伪相关。这是零关联难度。因此，成分约束因其对数据的协方差和相关结构的影响而臭名昭著。最后，利用单纯形样本空间中的参数分布对成分数据进行建模比较困难(参数建模困难)。回归多变量分析依赖于多元正态分布的假设，是在真实样本空间中进行的。与非负限制相比，单位和限制对组成成分的自由施加了更基本的限制。由于从整体或受非负约束和单位和约束对部件进行分析，由于值的范围有界，部件不能呈正态分布。因此，多元正态分布及其变换后的多元对数正态分布参数类不是分析成分数据的合适统计工具。在标准析因实验设计以及相关的方差分析和线性模型中，因素的独立性使我们能够检验它们对反应或特定交互作用项的加性效应。然而，在单纯形空间中，由于单位和的限制，因子(合成的D部分)不是独立的，实际上它们是混合物。如果我们改变一个组件，我们必须改变至少一个其他组件，并且不是线性的(特别是在边界)。因此，很难就混合物对响应的影响的性质提出有意义的假设。艾奇森称这是混合变种的困难。Aitchison给出的Dirichlet分布的主要性质是：Dirichlet组合的相关结构是完全负的，这使得分析某些Dirichlet组合的相关肯定为正的数据模式是不合适的。每一个Drichlet作品都有一个非常强的隐含独立性结构，不太可能用来描述即使是弱依赖形式的作品。因此，即使是Dirichlet类也完全不足以描述成分数据的可变性。总而言之，成分数据违反了所有标准统计检验的假设；即，部件之间的差异是线性的或相加的。它使大多数标准的统计方法和检验失效：(1)伪相关排除了相关分析；(2)图形失真使可视化工具(如散点图、QQ图等)失效。不可能；(3)成分的多变量正态性的缺乏排除了成分数据的多变量参数建模；以及(4)混合物的依赖性使得ANOVA和线性回归对于检验关于响应的假设没有意义。

④ 成分数据的统计分析

基本原则：Aitchison提出了成分数据分析的三个基本原则，并建议我们在分析成分数据时应遵循这些原则。它们已数次重新配制根据微生物组分分析数据的新理论发展。这些原则都植根于成分数据的定义：只有成分的比率才能携带信息。

A 比例不变性：它指出，分析必须将具有比例正分量的向量视为代表相同的成分。换句话说，关于成分数据的统计推断不应该依赖于所使用的尺度。因此，单位向量和百分比向量传达的信息完全相同。我们应该从分析比例和百分比中得到完全相同的结果。例如，向量a=[11，2，5]，b=[110,20,50]和c=[1100,200,500]由于其组成部分之间的相对重要性(比率)是相同的，所以它们的组成都是相同的.

B 亚成分连贯性：它指出，分析应仅依赖于关于该子集内的组件(或部件)的数据，而不应依赖于其他不涉及的组件(或部件)；并且关于子组成(组件的特定子集)的统计推断应该是一致的，无论推断是基于子组成还是基于完整组成。

C 排列不变性：它指出，成分分析的结论不应取决于成分(部件)的顺序(顺序)。在成分分析中，来自不同组分顺序的信息不起作用。例如，我们选择哪个组件是“第一个”，哪个组件是“第二个”，以此类推，哪个是“最后”，这并不重要。

一族对数比变换（A Family of Log-Ratio Transformations）：成分数据的主要问题是数据点不映射到Euclidean 空间，而是映射到Aitchison单纯形。问题是：如何分析成分数据？我们应该搬家，还是留在单纯的公寓里？因为标准的统计方法不能解决单纯形中的成分数据问题，所以成分数据分析的关键一步是提供一种在真实空间上进行一对一映射的方法。

A 对数和对数比转换（Log and Log-Ratio Transformations）：在单纯形中解决成分数据问题的方法预计将通过几个步骤来完成：首先，使用对数比变换将成分转换到实空间，然后将标准统计方法应用于变换后的数据最后通过使用逆对数比变换返回到单纯形。成分数据的对数比变换被认为可以合法地恢复传统统计分析工具在相对丰度等情况下的大量使用。虽然使用对数比变换被认为是释放成分约束的关键方法，但要达到目前合适的版本需要很长时间。要消除成分数据中的非负约束，第一个也可能是最简单的方法是使用对数正态分布。一百多年来，从Galton-McAlister的介绍到Aitchison和Brown关于对数正态分布的教科书，对数变换技术随处可得。通过对数据进行对数变换，消除了非负约束，然后假设为正态分布。该方法类似于使用逻辑连接函数在广义线性模型框架下对二进制数据进行建模。然而，对数变换方法只解决了成分数据的非负约束，而没有解决单位和约束。直到20世纪80年代Aitchison提出了基于多种对数比变换的方法论，单位和约束问题才开始得到解决。艾奇逊在20世纪80年代意识到，构图只提供部件或部件的相对信息，而不是绝对值。因此，他使用成分比率来呈现关于作文的每一项陈述。因为在数学上对数比率比比率更容易处理，并且对数比率变换提供了到真实空间的一对一映射，所以它为研究人员开发基于各种对数比率变换的方法开辟了一条道路。对数比变换原理背后的算法是基于这样一个事实，即在成分向量和相关的对数比向量之间存在一一对应关系，因此关于成分的任何陈述都可以根据对数比进行改造，反之亦然。通过对数比变换，消除了约束样本空间(单纯形)的问题，并将数据投影到多变量实数空间。因此，开放所有可用的标准多变量技术。对数比转换方法被地质学、生态学和其他领域的统计学家和研究人员接受。在一部开创性的著作(1986)中，为了将单纯形转换到真实空间，Aitchison用一套基本原理发展了一种成分数据分析的公理方法。基于这些基本原理，Aitchison等人发展了各种方法、运算和工具，包括加性对数比(ALR)、中心对数比(CLR)和等距对数比(ILR)变换。我们简要描述这三种适用于成分数据的对数比变换，如下所示：

（i）Additive Log-Ratio (alr) Transformation（加性对数比(alr)变换）：Aitchison(1986)最初提出的成分数据分析方法是基于加性对数比(ALR)变换。它被定义为：

该公式的显著特点是将D-部Aitchison单形中的合成非等距映射到D-1维Euclidean 向量。因此，对数比变换将原始成分数据从单纯形变换到real/Euclidean 空间。然后，可以用不依赖于距离的所有标准统计方法来分析对数比变换后的数据。它的逆变换从实/欧几里得空间回到单纯形。加性对数比(ALR)变换是最简单的变换，它选择一个分量作为参考。它仍在广泛使用。例如，在研究肥胖和微生物群之间的关系时，许多出版物都报道了拟杆菌与非微生物的比例。

（ii）Centered Log-Ratio (clr) Transformation（中心对数比(clr)变换）：中心对数比(CLR)变换将D部分Aitchison单形中的合成等距映射到D-1维欧几里德向量。成分x=(x1；…；xi；…；xD的clr表示定义为分量除以x的几何平均值后的对数：

例如，clr方法通过取样本中每个分类单元的计数的对数比除以所有分类单元计数的几何平均值，而不是使用一个参考分类单元来转换该分类单元。该算法已经被一些软件开发所采用。范登布加特和托洛萨纳-德尔加多，他认为这种转换可用于成功分析微生物组数据，以及RNA-seq数据和下一代序列数据集。

（iii）Isometric Log-Ratio (ilr) transformation（等距对数比(ILR)变换）：等距对数比(ILR)变换是由Egozcue等人定义的。以下为：

与clr类似，ILR变换将D部分Aitchison单形中的合成等距映射到D-1维欧几里得向量。与ALR和CLR一样，等距对数比(ILR)可以根据等距对数比变换将数据从单纯形变换到实空间。它也有倒数。所有标准的统计方法都可以应用于ILR变换后的数据分析。ILR变换是CLR与由元素组成的矩阵转置的乘积。这些元素是正交基的CLR变换分量。这种ILR变换是正交等距变换。它解决了ALR和CLR的某些困难，但其可解释性取决于对其基础的选择，这在一定程度上限制了其采用。

我们应该选择哪种转换？：这三种对数比变换之间的区别在于选择除数。换句话说，就是要选择使用哪个值来归一化样本中的所有值。每一次转型都有自己的弱点或优势。从理论上讲，ALR变换的一个缺点是，按照定义，变换在组成的部分是不对称的。因此，对于不同的因子，变换空间中的点之间的距离是不同的。因此，这意味着ALR转换后的数据不应该使用标准的统计方法，如方差分析和t检验，尽管如Aitchison所述，并在Aitchison等人中得到了进一步的发展。这一弱点是一个概念问题，而不是实际问题。ALR变换的主要缺点是：它不是从具有Aitchison度量的单纯形到具有普通欧氏度量的实ALR空间的等距变换。虽然在实加性对数比(ALR)空间中使用适当的斜坐标度量可以解决这一缺陷。然而，这并不是一种标准做法。在实践中，ALR转换或选择参考类群对解释结果相对简单，因为保留了与原始D-1第一部分的关系。这是ALR的优势所在。然而，可能并不总是有明显的参考可供选择，参考分类群的选择有点武断，结果可能会因参考的选择而有很大的不同。这可能是《用R分析成分数据》中没有将ALR变换用于成分数据分析的原因之一，尽管ALR函数是可以选择的。通过避免选择除数的ALR变换问题(例如，使用一个参考分类单元)，CLR变换除以几何平均值。CLR的优点在于它是具有Aitchison度量的单纯形到具有普通欧氏度量的实空间的子空间上的等距变换。然而，缺点是CLR协方差矩阵是奇异的，这使得在没有适应的情况下很难在一些标准统计程序中使用。此外，其子空间中的正交参考不是以直接的方式获得的，这被认为是其突出的弱点。ILR避免了ALR的任意性和CLR的奇异性。它具有显著的概念优势；然而，原始成分和转换后的变量之间没有一对一的关系，很难解释结果。因此，在实践中，ILR在使用中的采用有限。

成分数据分析中如何处理零点：自20世纪80年代以来，成分数据分析的一个关键进展是使用对数比方法。然而，对数比法并没有解决零问题，而是强调了处理零的重要性。由于没有定义零的对数，对数和对数比转换需要数据矩阵中的非零元素；因此，成分数据分析之前必须先处理零。这三种对数比变换难以满足排序数据集的复杂性带来的核心挑战，特别是解决零问题。我们已经在第2章复习了零的话题，并将在第12章的零膨胀模型中进一步介绍此主题。这里我们回顾一下成分数据分析员是如何处理不同类型的零的。零是由许多复杂的原因造成的，目前没有简单的一般治疗策略。成分数据分析员试图找到潜在的原因，并确定要应用的适当方法。自从Aitchison提出了通过替换和使用模型来处理零的最初方法以来，在成分数据分析中已经发展了几种处理方法。

A 处理四舍五入的零：对于舍零，大多数方法将其视为一种特殊的NMAR(在随机不丢失)情况，并通过使用非参数乘法替换来处理它们和更复杂的基于模型的替换参数方法：用一个小的非零值替换它们。从技术上讲，四舍五入零点的非参数方法本质上是用推算来代替每个零点的一小部分；同时已经提出了几种四舍五入的组成零的策略。四舍五入零的参数方法之一使用普通期望最大化(EM)算法的修改并结合ALR变换来生成低于检测限值的适当估计。归零的目的是避免使用对数比变换取零的对数。然而，在实际研究中，很难用特定的小非零值替换零，同时不会扭曲统计估计，特别是在稀疏程度发生巨大变化和出现异常值的情况下。

B 处理采样零点问题：抽样零被认为是抽样过程的结果，而不是真正的零，需要专门的方法。为了解决抽样零问题，已经提出了结合Dirichlet分布的贝叶斯乘法(BM)处理。贝叶斯替换技术被认为是处理零计数的最流行的方法。Martín-Fernández等人提出了一种新的贝叶斯乘法成分数据分析方法。它涉及对零值的贝叶斯推断和对计数矢量中的非零值的乘法修改。零值被其后验贝叶斯估计所取代。以乘法方式修改非零部分。这一修改保留了各部分之间的原始比率，以及向量的总和表示，部分之间的关联略有扭曲。基于有价值的信息：成分向量的平均值等于其几何平均值、几何BM(GBM)先验和GBM替换。2015)是为了取代零。然而，尽管在贝叶斯替换技术中，GBM替换的效果最好，但是没有一种贝叶斯方法，无论是GBM替换，还是贝叶斯方法，都不能完全解释尺度不变性。因为它不完全符合成分数据分析的尺度不变性原则，研究人员对贝叶斯替代方法提出了进一步的质疑，并返回到直接使用基于模型的替换程序来计算低于检测限值的值，并开发了R软件来实现它。例如，此过程的一个版本当前在库“robComposition”(Bacon-shone 2003)的函数impRZilr()中实现。

C 处理结构零点问题：有各种尝试来解决结构性零问题。Aitchison and Kay和Bacon-shone专门针对这类零的治疗做出了相关贡献。虽然目前还没有处理结构性零点的通用方法，但很明显，应对结构性零点的策略用一个较小的值替换它是不合适的。在成分数据分析的框架下，早期的研究大多承担着判断零是否为结构性的责任。他们认为，结构性零可以出现在成分是连续变量或百分比的数据集中，也可以出现在计数数据的离散组合中，并分别基于二项条件Logistic正态模型和泊松-对数正态分布对它们进行建模。虽然这两种方法已经成功地模拟了结构零点，但是，结构零点问题是迄今为止最复杂的问题；它需要具体的模型来考虑组合零点和非零点成分。

综上所述，在成分数据分析框架下区分零源并基于不同类别(四舍五入、抽样或结构零)进行建模的方法存在困难、麻烦和挑战，特别是在组学研究领域。在经济学中，零的问题更为复杂，因为要将抽样零和结构零分开并不容易。微生物组读数是通过两种基于高通量测序的方法产生的：一种是通过对16SrRNA标记基因进行测序，另一种是鸟枪测序，即对样品中出现的所有微生物基因组进行测序。在获得测序读数之后，通过与一些已知的参考序列进行比对来量化数据，并将其归一化为相对丰度，以使成分数据具有可比性。一般来说，我们可以说，在数据生成的过程中会出现大量的零。然而，组成数据集中出现零值可能是由于多种不同的原因。零测量值的存在，要么是因为组件不存在，要么是因为它存在但没有取样，或者是因为发生了一些测量误差。

成分数据分析的统计工具：

Statistical Software Under the Classic Framework of Aitchison’s CODA（艾奇逊CODA经典框架下的统计软件）：2001年，成分数据研究人员注意到，John Aitchison(1986)以CODA(使用BASIC作为语言)和NEWCODA(使用Matlab5)的名称编写的原始例程集很难用于科学家和其他没有编程技能的用户。从那时起，成分数据研究人员已经开发了许多R包，并可供使用。我们可以将这些工具分为两类：探索性分析和统计建模。A .CoDaPack 3D：CoDaPack 3D属于第一类。它在http://ima.udg.edu/CoDaPack.上以免费软件的形式公开提供。成分数据分析遵循艾奇逊的方法，主要基于对数比的研究和解释。CoDaPack 3D提供了一个用户友好的免费软件环境，可以执行这种方法的大部分技术。CoDaPack 3D作为ExcelR数据表中的一组菜单实施，并在同一张工作表上返回数值结果，或在独立窗口中以图形结果的形式返回。由于使用对数，合成数据技术不允许零值。为了替换零，CoDaPack 3D在操作菜单上有一个例程。B. Compositions：用艾奇逊的方法进行成分数据分析的三个常用的R软件包是compositions，robComposition和zComposition。（i）“compositions”是一个用于分析成分数据的统一R软件包(Greenuck，1993)。该软件包提供了成分数据一致性分析的功能。特别是，它提供了四种不同尺度的数量数据的统计分析方法：(1)acomp：具有相对几何的成分数据(Aitchison Simplex)；(2)rcomp：绝对几何的成分数据(经典单纯形)；(3)aplus：具有相对几何的正数据(Log-Scale分析)；以及(4)rplus：具有绝对几何的正数据(R+^d)。它规定：

所有来自Aitchison(1986)关于成分数据的数据集都可以在包成分中获得。

（ii）robCompositions：虽然compositions软件包特别致力于经典统计过程，但robCompositions软件包提供了探索性成分数据分析工具：成分数据的稳健统计分析以及相应的图形工具。robCompositions包提供ALR、CLR和ILR转换。但是，它们的转换实现不同于compositions包；在robComposition包中，保留了变量名和绝对值。它还为成分数据的稳健统计分析提供了一个全面的工具，包括主成分分析、因子分析、判别分析、缺失值归因于、多变量离群值检测以及相应的图形工具(例如，成分双线图)等。

（iii）zCompositions：在易受成分分析影响的数据集中，一个常见的左审查问题是存在四舍五入的零。ZComposition包实现了在成分计数数据集中输入零的方法。它在组合方法下使用左删除值对多变量数据进行补偿。ZComposition软件包的新奇之处在于既考虑了数据的多变量结构，又考虑了与数据分析的组合方法兼容的左删失数据的方法。因此，它被其他软件包(例如，ALDEx2)采用。

Statistical Methods and Packages for Correlation and Graphical Network CCREPE(相关和图形网络CCREPE的统计方法和软件包)：CCREPE(Compositionality Corrected by REnormalizaion and PErmutation)软件包旨在使用基于排列的方法评估组成数据集中一般相似性度量的重要性，该方法通过两个函数实现：ccrepe()ccrepe()和nc.core()nc.core()。第一个函数使用数据的自举和排列矩阵计算相对丰度的相似性度量、p值和q值，而第二个函数基于棋盘得分扩展到有序数据来计算物种水平的协变和共排除模式。当将p值分配给分类群之间的相似性度量时，该软件包将总和考虑到一个约束条件。（i）SparCC：基因组调查的一个共同目标是确定生态群落内分类群之间的相关性。作为CCREPE的替代方法，SPARCC(成分数据的稀疏相关性)专门设计用来估计成分数据中对数变换的分量之间的线性Pearson相关性。（ii）SpiecEasi ：SPIEC-EASI(SParse InversE Covariance Estimation for Ecological Association Inference：用于生态关联推断的稀疏逆协方差估计)是一种从扩增子测序推断微生物生态网络的统计方法，它解决了两个问题：(1)微生物的丰度是组成的，因此不是独立的；(2)与样本数量相比，分类群的数量(OTUS)要大得多。SPIEC-EASI和Package SpiecEasi通过利用相对丰度数据的比例不变性并在数据集中的分类群数量大于采样群落数量时对底层网络结构做出假设来解决这些问题。

该软件包括CCREPE、SPARCC、SPIEC-EASI，解决了微生物组分析的组成性质引起的不同困难。它采用所有已经开发的算法来适当地分析成分数据。然而，建议的方法有根本的局限性：它们都建立在对基础数据的假设之上，并且没有“黄金标准”来验证这些数据集的假设和一般特征，尽管没有指导性假设。例如，CCREPE的排列方法被认为无法充分控制成分效应，并导致对观察到的相关性的“错误信心”。SPARCC模型有两个有争议的问题。首先，它假设有足够多的分类群，并且这些分类群平均而言彼此不相关，从而形成一个稀疏网络，这可能高估了潜在的联合网络。其次，它通过增加小的伪计数来消除零分数，这明显简化了零问题的复杂性。在SPIEC-EASI中，研究了SPARCC和CCREPE产生不太一致和更稀疏的交互网络的问题。实际上，与SPARCC和CCREPE相比，SPIEC-EASI构建了更高重复性的关联网络。尽管这两种方法被设计用来解释这些成分偏差并代表该领域的最新技术水平，但还不清楚相关性是否是关联的适当度量。

Statistical Tools for Examining Differences in Taxon Abundance Using the CoDa（利用尾部检验紫杉醇丰度差异的统计工具）：（i）ANCOM：ANCOM((Analysis of Composition of Microbiomes：微生物群组成分析))是为了说明在生态系统一级检测微生物平均类群丰度差异时的成分限制，以减少错误发现。它是以成分对数比为基础的。ANCOM允许研究人员比较两个或更多种群中的微生物类群丰度，包括在纵向或横断面研究中检测随时间的趋势，同时在必要时调整协变量。该方法是通过ANCOM包实现的。ANCOM方法是目前使用尾部分析方法对分类单元丰度差异(OTU)进行统计分析和假设检验的两个可用的工具之一。另一种是ALDEx2。（ii）ALDEx2；如本3章所述。据我们所知，现有的大多数成分数据分析工具已用于其他领域，如地质学和生态学，但尚未用于微生物组学研究。这些现有工具易于改装，是分析微生物组高通量测序数据的有效方法。开发了名为ALDEx和ALDEx2的R软件包，用于分析类方差差异快报，并统一高通量测序数据集的分析，包括RNA测序(RNA-SEQ)、染色质免疫沉淀测序(CHIP-SEQ)、16SrRNA基因片段测序、元基因组分析和选择性生长实验。ALDEx和ALDEx2是成分数据分析工具，使用贝叶斯方法推断技术和统计错误。它将分类单元丰度的后验概率的贝叶斯估计融入到一个组成框架中：使用狄利克莱分布对观测数据进行变换，然后通过变换后的数据的随机抽样实例估计分类单元丰度的分布。ALDEx和ALDEx2是在传统的类ANOVA框架中发展起来的稳健统计方法，它将样本间的变异分解为四个部分：条件内变异、条件间变异、抽样变异和一般(无法解释的)误差。他们使用显著性的统计检验和基于尾部方法的效应大小测量来评估微生物组数据集中的分类单元(OTU)丰度。

基于Poisson过程与多项式过程等价的事实，传统方法先用Ni去估计 $\mu$ i，然后再用 $\mu$ i去估计pi的集合。这些方法忽略了大多数这种类型的数据集包含大量读取计数为零或很小的类群，因此这种方法的最大似然估计往往是指数不准确的。因此，ALDEx直接从计数集ni估计比例集pi。

这些分布是从所有基因i的潜在Dirichlet分布比例的多个独立蒙特卡罗实现中同时估计的。

10.2 为什么微生物组数据集可以被视为成分？

微生物组数据集可以被视为成分的原因有几个。

微生物组数据集的结构是组成的：在他1986年的研讨会工作(Aitchison 1986)中，Aitchison总结出组成数据集有四个特征：(1)数据阵列的每一行对应于一个重复的、单一的实验或观察单元；(2)每列对应于每个组成的特定成分或部分；(3)每个条目是非负的；(4)每行条目的总和是1，或相当于100%。微生物组数据相对丰度表满足组成数据集的特征。

微生物组数据的相对值可能是微生物组研究的重点：在某些情况下，微生物组研究真正感兴趣的是比较不同成分的相对数量或相对丰度。也就是说，研究人员真正感兴趣的是不同组件的真正相对特征。例如，在肥胖微生物群研究中，研究兴趣之一是拟杆菌相对丰度与Firmicuts相对丰度的比率。在这种情况下，特定样本的总读取次数本身并不具有信息性或本身并不重要。

微生物组数据的来源可能会使数据的总值变得毫无意义：从测序的角度来看，从高通量测序生成的数据集是预定义的或被约束到某些常量。包括RNA测序(RNA-SEQ)、16S rRNA基因片段测序(Illumina HiSeq或454焦测序)、染色质免疫沉淀测序(CHIP-SEQ)、元基因组分析和选择性生长实验的组学数据集由映射到每个样本中的大量特征(例如，OTU、基因、物种或任何分类水平)的测序读数的计数组成。机器的容量(使用的测序平台)和在运行中多路复用的样本数量决定了观察到的读数(测序深度)。因此，虽然高通量测序方法报告的读数总数很大，但是有限。

样品制备限制微生物组数据仅携带相关信息：样品制备和DNA/RNA提取过程以确保数据只携带相关信息的方式对组学进行了测量。例如，RNA测序从固定重量或体积的组织样本开始，提取固定重量或体积的DNA/RNA，并从固定体积的总RNA中获得有限数量的序列片段读取。总之，从本质上讲，微生物组数据的共同特征是组成的基于Aitchison定义的标准。因此，成分数据分析方法可以应用于微生物组数据。

选择组合方法分析微生物组数据的实用规则：在实践中，我们如何判断组合方法是否合适？通常，当我们感兴趣的是它们成分之间的比率，而不是向量的总和，那么组合方法是合适的。特别地，数据的适当性成分数据的转换可以通过回答两个问题来解决。首先，这些数据的总数是否有用？第二，观察结果之间的绝对差异重要吗？当我们对这两个问题都回答“是”时，就意味着数据属于欧几里得空间，传统的统计方法是有效的。如果我们对这两个问题都回答否，这意味着数据属于Aitchison单纯形，必须在分析之前进行转换。大多数rna-seq分析工具，例如用于16SrRNA基因分析的主要工具(cheime，mothur和vegan)和chIP-seq分析工具，都假定数据集中的值是欧几里得的，绝对差异是重要的。

10.3 Exploratory Compositional Data Analysis（探索性成分数据分析）

① Compositional Biplot

成分双线图是探索多变量成分数据最广泛使用的工具之一。成分双标图被认为是在探索微生物组数据集时应该使用的第一个探索性数据分析工具。该图显示了样本是否被分成不同的组；哪些分类群推动了这种分离，哪些分类群与分析无关。在第一章。7、在介绍主成分分析(PCA)时使用的是双曲线图，但没有详细说明。在这里，我们将进一步介绍它的概念和用途。双曲线图由Gabriel提出，在同一曲线图中显示观测数据(对象或样本)和变量，以描述它们之间的联合关系。名称bilot中的前缀“bi”是指同时显示数据矩阵的行(观察值或样本)和列(变量)，而不是指曲线图的二维性。二重图通常用于矩阵的图形显示，并将其应用于主成分分析(称为主成分二重图)。由于二维以上的显示通常很难制作，甚至更难解释，大多数双线图只显示数据矩阵中最大变化量的两个维度。