集团遗传学: 主成分判别分析(DAPC)

作者: Jason数据分析生信教室 | 来源:发表于2023-05-16 15:05 被阅读0次

特征降维中PCA和LDA
机器学习面试之数据降维
SPSSAU教程06：聚类权重分析指标解读
机器学习day11降维
PCA与LDA比较
第五章无监督学习：数据降维
线性判别分析（LDA）和主成分分析（PCA）
降维——线性判别分析与主成分分析
白话“主成分分析” 1 ：主成分分析用于降维的思想
聚类分析、判别分析、主成分分析、因子分析

通常我们会遇到在没有先前知识的前提下通过确定观察到的群体（集团）数量来推断人口结构。这种情况可以使用几种方法来推断群体，例如K均值聚类、使用STRUCTURE的贝叶斯聚类和多变量方法，如主成分判别分析（DAPC）（Pritchard，Stephens＆Donnelly，2000; Jombart，Devillard＆Balloux，2010; Grünwald和Goss，2011）。类STRUCTURE的方法必须基于标记不相关的假定下，并且人口是全自交的（Pritchard等，2000）。对于部分独立的种群，基于遗传距离的K均值聚类或DAPC是更方便的无模型方法。本文着重于探讨DAPC方法。

流感病毒株H3N2的DAPC分析

DAPC（主成分判别分析）由Jombart等人（Jombart et al., 2010）首创，可以用于推断具有遗传关联的个体的群集数量。在这种多元统计方法中，样本的方差被分为组间和组内两个部分，以最大程度地区分不同群体。在DAPC中，首先使用主成分分析（PCA）对数据进行转换，然后使用判别分析（DA）识别群集。这个教程基于Thibaut Jombart编写的vignette（代码示例。用户还可以通过在R中执行adegenetTutorial("dapc")来打开vignette。

# DAPC requires the adegenet package. Let's load this package:
library("adegenet")
data(H3N2) # load the H3N2 influenza data. Type ?H3N2 for more info.
pop(H3N2) <- H3N2$other$epid
dapc.H3N2 <- dapc(H3N2, var.contrib = TRUE, scale = FALSE, n.pca = 30, n.da = nPop(H3N2) - 1)
scatter(dapc.H3N2, cell = 0, pch = 18:23, cstar = 0, mstree = TRUE, lwd = 2, lty = 2)

在上文中使用的dapc()函数的参数解释如下：

dataset：这个参数指的是正在分析的数据集，本例中是H3N2数据集。它包含了H3N2流感株的遗传数据。
var.contrib：这个参数被设置为TRUE，表示我们希望在输出中保留对分析有贡献的变量信息（位点信息）。通过将其设置为TRUE，您可以后续查看哪些位点贡献了群体的分离。
center：这个参数被设置为FALSE，表示我们不希望对数据进行重新缩放，使均值等于0。数据居中是一种预处理步骤，涉及将每个变量减去均值，这在某些分析中有帮助。但是，在这种情况下，不需要进行居中处理。
n.pca：这个参数确定在主成分分析（PCA）步骤中保留的轴（主成分）的数量。如果设置为NULL（默认值），函数将根据数据自动确定适当的主成分数量。主成分捕捉到了遗传变异的主要方向。
n.da：这个参数确定在判别分析（DA）步骤中保留的轴的数量。如果设置为NULL（默认值），函数将根据数据自动确定适当的判别轴的数量。判别轴是从主成分派生出来的，用于识别数据中的群集或群体。

这些参数提供了灵活性和对分析的控制，允许自定义在PCA和DA步骤中使用的成分数量，并指定是否包括变量贡献和居中处理。

可以看出2001到2005的数据根据横坐标一字排开，2006的数据和2001-2005的数据根据在纵坐标上分的很开。

接下来可以看一下，2006样本是不是存在和2001-2005差异很大的等位基因点。

set.seed(4)
contrib <- loadingplot(dapc.H3N2$var.contr, axis = 2, thres = 0.07, lab.jitter = 1)

399和906的SNPs很扎眼。所以接下来可以着重查看这两个点的SNPs的变化情况。

temp    <- seploc(H3N2)       # seploc {adegenet} creates a list of individual loci.
snp906  <- tab(temp[["906"]]) # tab {adegenet} returns a matrix of genotypes
snp399  <- tab(temp[["399"]])

# The following two commands find the average allele frequencies per population
(freq906 <- apply(snp906, 2, function(e) tapply(e, pop(H3N2), mean, na.rm = TRUE)))

##            906.c     906.t
## 2001 0.000000000 1.0000000
## 2002 0.000000000 1.0000000
## 2003 0.000000000 1.0000000
## 2004 0.000000000 1.0000000
## 2005 0.002155172 0.9978448
## 2006 0.616071429 0.3839286

(freq399 <- apply(snp399, 2, function(e) tapply(e, pop(H3N2), mean, na.rm = TRUE)))

##            399.c     399.t
## 2001 0.000000000 1.0000000
## 2002 0.000000000 1.0000000
## 2003 0.000000000 1.0000000
## 2004 0.001848429 0.9981516
## 2005 0.002079002 0.9979210
## 2006 0.357142857 0.6428571

# First, set the plotting parameters
# mfrow = number of columns, rows
# mar   = plot margin size
# las   = axis label style (3: always vertical)
par(mfrow = c(1, 2), mar = c(5, 4, 4, 0) + 0.1, las = 3)

matplot(freq906,  pch = c("c", "t"), type = "b",
        xlab = "year", ylab = "allele frequency", main = "SNP # 906",
        xaxt = "n", cex = 1.5)
axis(side = 1, at = 1:6, lab = 2001:2006)

matplot(freq399, pch = c("c", "t"), type = "b",
        xlab = "year", ylab = "allele frequency", main = "SNP #399",
        xaxt = "n", cex = 1.5)
axis(side = 1, at = 1:6, lab = 2001:2006)