美文网首页
关于人参考基因组的一些总结

关于人参考基因组的一些总结

作者: 花色匆匆 | 来源:发表于2020-12-17 17:11 被阅读0次

    人参考基因组fasta文件的组成部分说明

    chr1
    chr2
    ...
    chr22
    chrX
    chrY
    chrM 线粒体
    chr1_KI27...v1_random 表示知道在哪条染色体上,但是不知道方向和顺序
    chrUn_KI27...412v1 表示在哪个染色体上
    Alternate contigs, alternate scaffolds,alternate loci,以alt结尾的序列,用来表征序列多

    样性,基因组是由单倍体类型表现的,基因的多样性(如等位基因)无法通过一条序列表示,就有

    了alt序列来补充说明,这样的alt序列在测序分析map过程容易产生multiple-mapping低质量的

    reads,GATK的zeroMappingQuality会将这样的reads过滤掉。

    chr1_KI270762v1_alt
    PAR区域:伪染色体序列,在X Y染色体上都存在,在map序列时会造成multiple-mappling reads,

    需要其中一条染色体上的par区域mask掉。
    decoy基因组 包含人疱疹病毒EBV基因组的序列。

    chrUn_KN707606v1_decoy

    关于基因组版本
    GRCh38版本,也有GRCh38.p6, GRCh38.p11等小版本,p指的patchs指定期对基因组的修补,并且每

    次修补并没有扰乱染色体位置信息,两种patch
    fix patches表示下次主版本发布时将要替换的序列
    Novel patches表示上面提到的alternate loci,也就是将新的patches看做变异序列。

    analysis set
    常用的基因组文件只包含primary assembly,而analysis set 还包含alt序列,PAR序列,decoy基

    因组。这些时做基因组变异分析必须的。

    1参考基因组的选择
    1.1三种选择
    如果比对到GRCh37/hg19,ftp://ftp-

    trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
    如果比对到GRCh37/hg19,并且认为包含decoy序列能够更准确地进行变异检测,使用:
    ftp://ftp-

    trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_seque

    nce/hs37d5.fa.gz
    如果比对到GRCh38/hg38,使用:
    ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_fo

    r_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

    1.2ALT contig序列是为了反映人群多态性的一段替补序列,和原染色体位置对应的序列之间有一

    定的差异。放在ref中的隐患是人为增加了重复序列。
    用很长的N间隔这些ALT contig序列增加了不必要的ref的size

    Ensembl
    可以下到最新版
    ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
    ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/

    GATK
    https://software.broadinstitute.org/gatk/download/bundle
    包括SNP, InDel这类为变异检测提供参考的文件。

    NCBI
    ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13

    UCSC
    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
    包含很多的文件,

    image.png

    NCBI
    https://www.ncbi.nlm.nih.gov/genome/guide/human/
    包含各种文件

    image.png
    1. ensembl
      官网:http://asia.ensembl.org/index.html
      ftp://ftp.ensembl.org/pub/release-98/gff3/homo_sapiens/

    ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/

    [1] https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

    [2] https://www.biostars.org/p/73100/

    [3] https://software.broadinstitute.org/gatk/blog?id=8180

    [4] https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/

    相关文章

      网友评论

          本文标题:关于人参考基因组的一些总结

          本文链接:https://www.haomeiwen.com/subject/oslngktx.html