根据SNP构建fasta

作者: 苏牧传媒 | 来源:发表于2018-11-12 21:29 被阅读2次

    # SNP下载:

    ftp://ftp-mouse.sanger.ac.uk/current_snps/strain_specific_vcfs/

    # vcf格式:

    ref:http://www.internationalgenome.org/wiki/Analysis/vcf4.0

    # 过滤:

    ref:https://biopet.github.io/vcffilter/0.2/index.html 【含下载】

    java -jar /home/pc/biosoft/vcffilter-assembly-0.1.jar --help

    也可过滤,但是没用。

    # 过滤命令:

    ref:https://github.com/vcflib/vcflib

    /home/pc/biosoft/Vcflib/vcflib/bin/vcffilter -f "FILTER = PASS" BALB_cJ.mgp.v5.snps.dbSNP142.vcf > BALB.vcf

    占比:

    过滤前 过滤后

    约passed:4576884/5203549=0.87956969

    # 软件vcftools:

    ref:https://sourceforge.net/projects/vcftools/

    ref2:http://vcftools.sourceforge.net/index.html

    # 命令:

    cat ref.fa | vcf-consensus file.vcf.gz > out.fa

    # 参考基因组:

    ftp-mouse.sanger.ac.uk/ref/GRCm38_68.fa

    下载后查看:

    VCF文件 sanger的fasta文件 UCSC的mm10 gencode也相同 ensembl不同 sanger UCSC相同 ensembl不同

    结论:使用UCSC的mm10参考基因组进行构建OK!

    步骤:

    1.下载vcf的tbi文件:

    axel -n 10 ftp://ftp-mouse.sanger.ac.uk/current_snps/strain_specific_vcfs/BALB_cJ.mgp.v5.snps.dbSNP142.vcf.gz.tbi

    或者自己构建:

    gunzip BALB.vcf.gz

    bgzip -c BALB.vcf > BALB.vcf.gz

    tabix -p vcf BALB.vcf.gz

    2.vcftools:

    cat ../mm10.chr.fa | vcf-consensus BALB.vcf.gz > BALB.fa

    发现chr有问题:

    sed 's/>chr/>/g' ../mm10.chr.fa > mm10.fa

    cat mm10.fa | vcf-consensus BALB.vcf.gz > BALB.fa

    sed -i 's/>/>chr/g' BALB.fa

    samtools faidx查看下是否相同:

    改成了C OK!

    相关文章

      网友评论

        本文标题:根据SNP构建fasta

        本文链接:https://www.haomeiwen.com/subject/gufhfqtx.html