PCA
PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。旨在利用降维的思想,把多指标转化为少数几个综合指标。
主成分分析可以反映出群体分群信息及离群样本,可以使用 plink、EIGENSOFT等软件进行分析,这里我们使用 plink。
数据和软件准备
数据:all.LDfilter.vcf(上一步构建进化树时已经过滤好的文件)
样品和分群的对应文件sample.txt,第一列是样品名,第二列是亚群名
软件:plink
参考脚本
plink --vcf all.LDfilter.vcf \ #输入文件
--pca 10 \ #PCA的个数要小于等于样本数
--out PCA_out \ #输出文件名称
--allow-extra-chr \ #允许其他格式的染色体名称
主要输出结果:
1.特征值文件:PCA_out.eigenval
2.特征向量文件:PCA_out.eigenvec
绘图
Rscript PCA.R \#R绘图脚本
PCA_out.eigenvec 1 2 \#pca1、pca2
sample.pop \#分群信息
PCA_out
网友评论