美文网首页R生信群体遗传学
跟着Nature Genetics学数据分析~SNP数据计算距离

跟着Nature Genetics学数据分析~SNP数据计算距离

作者: 小明的数据分析笔记本 | 来源:发表于2021-01-09 18:59 被阅读0次

    最近在看论文 Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication(高水平论文看起来还真是吃力!)看懂一点记一点吧。今天的笔记记录的是SNP数据计算距离矩阵,然后用距离矩阵构建进化树的过程。论文原文的方法部分写到:

    A neighbor-joining phylogeny was constructed based on the P distance matrix calculated by VCF2Dis

    这篇论文提供了vcf格式的SNP数据下载链接

    Genome assemblies and annotated genes, nonreference genome sequences and annotated genes of the apple pan-genomes, and SNPs and SVs called from the genome resequencing data are also freely available at http://bioinfo.bti.cornell.edu/apple_genome.

    那接下来我们就可以试一下了

    首先是下载数据
    wget ftp://bioinfo.bti.cornell.edu/pub/Apple_genome/variome/SNP.vcf.gz
    

    这个数据集稍微有点大

    接下来是计算距离矩阵

    用到的工具是 VCF2Dis

    工具对应的github主页
    https://github.com/BGI-shenzhen/VCF2Dis

    按照软件主页的帮助文档 下载安装,没有遇到问题

    image.png
    使用VCF2Dis这个软件计算距离矩阵

    软件用起来也很简单,直接指定vcf格式的文件,压缩文件也可以

    ./VCF2Dis-1.43/bin/VCF2Dis -InPut SNP.vcf.gz -OutPut p_dis.mat
    

    运行过程顺利,没有遇到报错
    得到距离矩阵文件 p_dis.mat

    image.png

    这个软件的主页还很贴心写了如何利用距离矩阵构建NJ树的方法

    为了省事就直接使用在线程序了

    http://www.atgc-montpellier.fr/fastme/

    image.png

    很快就得到了结果

    image.png
    最后是用ggtree展示进化树
    library(ggtree)
    library(treeio)
    tree<-read.newick("p_dis_mat_fastme-tree.nwk")
    ggtree(tree,layout = "ape")+
      geom_tiplab(size=2)
    
    image.png

    已经很接近论文里的结果了,接下来应该好好想想如何美化了

    image.png

    简单比较了一下,结果好像还差的挺多的

    今天的内容就先到这里了
    欢迎大家关注我的公众号
    小明的数据分析笔记本

    相关文章

      网友评论

        本文标题:跟着Nature Genetics学数据分析~SNP数据计算距离

        本文链接:https://www.haomeiwen.com/subject/uowcaktx.html