美文网首页
关于Hisat2的参考基因组和注释文件

关于Hisat2的参考基因组和注释文件

作者: leoxiaobei | 来源:发表于2020-03-13 13:44 被阅读0次

    已知Gencode的注释文件(gtf和gff3)都是带“chr”’的,UCSC带“chr”,ENSEMBL不带“chr”,NCBI最新的甚至不带染色体号(建议摒弃NCBI的,gtf注释率为0,垃圾玩意)


    ***NCBI***

    而关于人类和小鼠,Hisat2的参考基因组都有两种:
    一种是GRC开头的,比对完之后没有“chr”
    一种是UCSC开头的,比对完是有“chr”
    关于大鼠,只有一种UCSC比对完是有“chr”
    为了统一,建议使用UCSC开头的

    接下来的比对,建议使用featurecount,不仅速度快,还可以忽略hisat2 index染色体号和gtf染色体号不统一的问题
    例如:比对完bam文件带chr,而gtf注释文件不带chr,featurecount完美解决该问题
    注:以前(2020.3)的htseq是不可以的,现在(2021.1)未测试

    转换方法:
    如果不慎采用了第一种GRC的参考基因组,可以使用sed命令为注释文件的每一行开头去掉“chr”,即:
    sed -i 's/chr//' xxx.sorted.gtf
    如果要恢复原来的注释文件,同样可使用下列语句为每一行开头加上“chr”:
    awk '{print "chr"$0}' xxx.sorted.gtf > xxx.sorted.gtf
    仅以自省!

    相关文章

      网友评论

          本文标题:关于Hisat2的参考基因组和注释文件

          本文链接:https://www.haomeiwen.com/subject/zumcshtx.html