微生物分析-排序方法

作者: 肖ano | 来源:发表于2020-09-07 09:43 被阅读0次

微生物分析-排序方法
数据结构基础学习之（内排序）
物种数据转换
第七章微生物组数据的探索性分析.1
排序方法分析
微生物组数据挖掘新方法tmap
微生物多样研究—微生物深度分析概述
简介
比较型排序与非比较型排序算法的总结
数量生态学笔记||冗余分析（RDA）概述

约束性/非约束性排序

主成分分析（PCA）、对应分析（CA）（加权平均法迭代运算中）、去趋势对应分析（DCA）和非度量多维尺度分析（NMDS)，冗余分析（RDA）约束的PCA 和典范对应分析（CCA）

1. PCA和PCoA

主成分分析PCA（Principal component analysis）是一种研究数据相似性或差异性的可视化方法，采取降维的思想，PCA 可以找到距离矩阵中最主要的坐标，把复杂的数据用一系列的特征值和特征向量进行排序后，选择主要的前几位特征值，来表示样品之间的关系。通过PCA 可以观察个体或群体间的差异。PCA后面的百分数表示对应特征向量对数据的解释量，此值越大越好；

PCoA的计算原理与PCA相同，只是不象 PCA 只用欧氏距离方程计算点间距离，它可以用各种距离系数，从上面的分析过程看，PCoA与PCA有很大的相似性。可以证明，如果使用欧氏距离矩阵 PcoA与使用种类化中心的PCA正分析相同

对应分析（Correspondence analysis, CA）（Hill 1974）也叫做相互平均法，但它有一个重大缺点，就是CA/RA的第二排序轴在许多情况下是第一轴的二次变形，即所谓的“弓形效应”（Arch effect）或者“马蹄形效应”
The CA distortion is called the arch effect, which is not as serious as the horseshoe effect of PCA because the ends of the gradients are not incurved. Nevertheless, the distortion is prominent enough to seriously impair ecological interpretation.（注：PCA存在“马蹄形效应”，搞出了CA，CA存在“弓形效应”，搞出了DCA）

马蹄形效应

弓形分析

2. PCoA和NMDS

一般的排序方法都要求P（种）×N（样方）的原始数据矩阵，再从原始数据出发去进行排序。但是还有一类排序方法不是从原始数据出发，而是以样方间相异距离矩阵为起点，这一距离矩阵可以是基于某个相异系数而计算出来的，也可以是通过观察直接得到的样方间的某种差异。这样排序的目的是将N个样方排列在一定的空间，使得样方间的空间差异与原始距离矩阵保持一致，这类排序方法称作多维标定排序（Multi-dimensional scaling）。如果排序依赖于相异系数的数量值，就叫有度量多维标定法（Metric multi-dimensional scaling）；如果排序仅仅决定于相异系数的大小顺序，则称为无度量多维标定法（Non-Metric Multi-Dimensional Scaling；NM-MDS）。前面讲到的主坐标分析就是一个有度量多维标定法（张金屯 1995，余世孝 1995）。

在排序空间给样方布局，让样方间距离的远近度量代表它们之间物种组成的相似度。这类排序方法称作多维标定排序（Multidimensional scaling）如果排序依赖于相异系数的数量值，就叫有度量多维标定法（metric mult-dimensional scaling）PCOA；如果排序仅仅决定于相异系数的大小顺序，则称为无度量多维标定法（Non-Metric Multi-Dimensional Scaling；NM-MDS）

NMDS：试图在一个低维的空间中建立一个样品分布地图，是样品间的欧式距离的等级顺序与其相似性或非相似性等级顺序保持一致。等级相似性rank order similarity：将相似性矩阵相似性按大小排序，最高的相似性给与最低的等级1，最低的相似性给与最低的等级你（n-1）/2。

A measure of ‘stress’ (mismatch between the rank order of distances in the data, and the rank order of distances in the ordination) is calculated，在无度量多维标定法，我们不用影射规则，而是相异系数的大小顺序，通过数量算法球得样方间的距离。
排序后样方的空间差异性与原距离矩阵差异最小或者
要使得N个样方在m维排序空间中的距离与预先已知的距离保持一致

非约束排序也叫间接梯度分析，而约束排序也叫直接梯度排序分析。
非约束排序可以下面两种方式构建：

间接梯度分析的目标就是发现这样的坐标轴，让群落中的样方或是物种的最大变化量能够在坐标轴上体现出来。换句话说，让尽可能多的变化量能够在尽可能少的轴上展示出来，并且让样方或物种在排序图能够可视化展示出来。当然，我们会经常期望这些轴能够代表一些潜在的环境变量。而约束排序（constrained ordination）的目的就是发现物种在环境梯度上的变化情况。

所有排序方法都是基于一定的模型之上，这种模型反映植物种和环境之间的关系以及在某一环境梯度上的种间关系。最常用的关系模型有两种：一种是线形模型（linear model），另一种是单峰模型（unimodal model）。线形模型的含义表示某个植物种随着某一环境因子的变化而呈线性变化或叫线性响应（linear response）。单峰模型的含义是某个植物种的个体数随某个环境因子值的增加而增加。当环境因子增加到某一值时，植物种的个体数达到最大值，此时的环境因子值称为该种的最适值（optimum）；随后当环境因子值继续增加时，种的个体数逐渐下降。为了简化单峰模型，我们经常假设单峰曲线以峰值的为中心，两边是对称的（见Hutchinson 1957,资源梯度与物种最适值)。在排序之前，我们首先决定用那种模型。大部分情况下，两种模型都仅仅是实际数据的近似拟合，所以我们要决定的那种模型对我们所要分析的拟合更好。其实，单峰模型也是理想化的模型，在现实中，物种对环境才响应很少以最适值为中心两边对称的，更复杂的响应曲线也经常出现（比如双峰模型）。

进行排序分析之前，首先要判断是选择线性模型（PCA 和RDA）还是单峰模型(CA和CCA)的排序方法。一般来说，如果物种分布变化大，选择单峰模型效果比较好，反之，线性模型也是不错。可以通过DCA分析来判断，如果DCA排序前4个轴中最大值超过4，选择单峰模型排序更合适。如果是小于3，则选择线性模型更好(Lepx & Smilauer 2003)。如果介于3-4之间，单峰模型和线性模型都可行。

环境梯度与模型选择