前言
其实我只是想写CCorA与CCA的区别的,以便我可以更有效的解读和关联metadata和OTU table,但是。。。算了。。。立了这么大的title就写完吧。
定义与原则(Principles)
所谓Canonical analysis(译作‘典范分析’),就很想吐槽译名,但也没有更好的,即同时处理多个描述同一群对象的数据表格的分析方法。例如可以处理,OTU table与metadata表格。或者生化指标的metadata和人口学特征的metadata表格。
Indirect Comparison
如果是非直接的比较,那么解释变量X,不会直接干涉响应变量Y的Ordination。X中Ordination vectors的相关或者回归是后验计算的。
Direct Comparison
解释变量X直接干涉Y的Ordination的计算,强行使其与X中变量的线性组合最大程度的相关。这在后面的对称/非对称的比较中,最为显著
asymmetric canonical ordination methods
CCA、RDA、LDA,需要在使用前明确因、果关系,两个数据表在XY和YX分析下是有区别的。
symmetric canonical ordination methods
CCorA、CoIA、Proc,输入的两个数据表是等价的,不区分因果、前后。(有说法是CCorA对 community composition data不适用,因为其方法内部需要进行标准化(Standardizes),而species的数据不能进行标准化的(使其mean=0,std=1)。)
正文
非对称典范分析
总的来说是通过结合了Ordination和regression的方法进行分析,所以可以同时分析多个Table。可见下图,
- 先是对X进行Ordination,
- 再对y中各个特征进行线性回归
- 得到了对应y在X Ordination上的一个Vectors
可见,由于存在一个线性回归后的新的投影(constrained),所以存在R^2,且存在原始的y的直接投影(unconstrained),也存在unconstrained 与 constrained的比重问题。
RDA CCA LDA 本质区别
分析方法 | 轴的来源 | 保留的Y的距离 | 最大化什么 |
---|---|---|---|
RDA | 与X的特征的线性组合最相关的方向 | 通过回归保留了Y中的欧式距离 | Y与X回归时的R^2 |
CCA | CA后的轴 | 保留了Y中卡方距离 | Y与Q(X在CA后的矩阵)回归时的R^2 |
LDA | X中特征线性组合后的方向 | 以Y作为分组条件,使组间最远 | 最大化(组间分散度/组内分散度) |
CCorA | 与X、Y的特征的线性组合最相关的方向 | 最大化(变量间相关性的平方) | |
CoIA | 对X、Y进行Joint Ordination产生的轴 | 因为描述同堆objects,所以提取其X、Y的共有结构,并分别投影,X对objects与Y对objects | |
Proc | 对X、Y进行Joint Ordination产生的轴 | 同上 |
如何选择canonical analysis
- 如果能确定Y能被X所解释,即Y是X的果,存在确定的因果关系,可以使用asymmetric的方法。
- 如果Y是完整的表格,可以用RDA、CCA(其中若X展现与Y中的线性关系,可用RDA。CCA则适用于 可以单独对Y进行CA的数据。)
- 如果Y存在分类/ANOVAR factor,可以用LDA
- CCorA与CoIA、Proc则适用于在相关矩阵中描述同一堆对象的两组Table。
网友评论