参考基因组的选择

作者: 小潤澤 | 来源:发表于2020-10-23 11:48 被阅读0次

    我们在做分析的时候,常常面临如何选择参考基因组的问题,我们以Ensembl上的参考基因组为例,
    我们以小鼠的参考基因组为例:


    我们看到第2行以alt结尾的参考基因组文件,这个文件的alt代表:Alternate loci,不同的单倍体型,里面有不同的HLA序列,基因在一条染色体上的组合称单元型(haplotype ,又称单倍型)
    接下来以chromosome+数字结尾的代表每个染色体的序列信息
    那么,我们一般做比对选用的是primary_assembly结尾的文件,该文件内部有完整的基因组信息(包括每条染色体的序列信息)
    而以toplevel结尾的文件,其内部包括了很多该物种的亚型,或者说包括了大量的变异信息,其余很多部分都是冗余的,不建议做比对时使用,否则建索引就很慢


    接下来带有前缀rm的文件表示在基因组中重复区域标记成N,rm即repeat mask;在做比对时不建议使用
    而带有前缀sm的文件表示在基因组中重复区域都用小写表示,sm即soft mask;有些软件在比对时可以进行大小写转换,有些则不会

    参考:https://www.jieandze1314.com/post/cnposts/79/

    相关文章

      网友评论

        本文标题:参考基因组的选择

        本文链接:https://www.haomeiwen.com/subject/dthvmktx.html