美文网首页群体遗传学
重测序分析(10)群体进化分析之PCA分析

重测序分析(10)群体进化分析之PCA分析

作者: Bioinfor生信云 | 来源:发表于2022-10-15 22:24 被阅读0次

    PCA

    PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。旨在利用降维的思想,把多指标转化为少数几个综合指标。

    主成分分析可以反映出群体分群信息及离群样本,可以使用 plink、EIGENSOFT等软件进行分析,这里我们使用 plink。

    数据和软件准备

    数据:all.LDfilter.vcf(上一步构建进化树时已经过滤好的文件)
    样品和分群的对应文件sample.txt,第一列是样品名,第二列是亚群名


    软件:plink

    参考脚本

    plink --vcf  all.LDfilter.vcf  \ #输入文件
    --pca 10  \ #PCA的个数要小于等于样本数
    --out  PCA_out   \ #输出文件名称
    --allow-extra-chr \ #允许其他格式的染色体名称
    

    主要输出结果:
    1.特征值文件:PCA_out.eigenval


    2.特征向量文件:PCA_out.eigenvec


    绘图

    Rscript PCA.R  \#R绘图脚本
    PCA_out.eigenvec 1 2  \#pca1、pca2
    sample.pop  \#分群信息
    PCA_out
    

    欢迎关注Bioinfor 生信云公众号!

    相关文章

      网友评论

        本文标题:重测序分析(10)群体进化分析之PCA分析

        本文链接:https://www.haomeiwen.com/subject/fytrzrtx.html