美文网首页小教程收藏
小麦RNA-seq利用hisat2构建index过程

小麦RNA-seq利用hisat2构建index过程

作者: 张志勇_zzy | 来源:发表于2019-08-20 20:10 被阅读0次

    根据简书崔女神文章https://www.jianshu.com/p/071c1757ded1
    利用hisat2来构建小麦的转录组的索引文件,服务器内存64G,构建的命令如下:

    gunzip Triticum_aestivum.IWGSC.dna.toplevel.fa.gz #参考基因组来自于ensembl
    gunzip Triticum_aestivum.IWGSC.44.gtf.gz#注释文件同样来自于ensembl
    #解压.gz文件 
    source activate rna
    #启动rna环境
    hisat2_extract_exons.py Triticum_aestivum.IWGSC.44.gtf > exons_wheat.txt
    hisat2_extract_splice_sites.py Triticum_aestivum.IWGSC.44.gtf >ss_wheat.txt
    #利用hisat2提取外显子位置到exons_wheat.txt ,可变剪切位置到ss_wheat.txt
    
    hisat2-build -p 8 --ss ss_wheat.txt --exon exons_wheat.txt Triticum_aestivum.IWGSC.dna.toplevel.fa IWGSC
    #利用hisat-build构建小麦转录组比对的索引文件, -p 8为 8线程,--ss 可变剪切文件,--exon 外显子文件,后接参考基因组,index文件前缀为IWGSC
    
    image.png

    构建过程中提示提示内存不足,但是可自动优化参数,构建时间全长大约为3个小时。

    image.png
    构建成功后的文件有两种,分别是:.rf 和.ht2l,根据hisat说明,构建完成会生成6个ht2文件,但是对于文件较大的索引文件,后缀为:ht2l。
    image.png

    构建后的索引大小

    IWGSC.1.ht2l 16M
    IWGSC.2.ht2l 4B(你没有看错,是4B)
    IWGSC.3.ht2l 12M
    IWGSC.4.ht2l 3.4G
    IWGSC.7.ht2l 25M
    IWGSC.8.ht2l 3.7M


    image.png

    但是rf文件还不确定有何用,经研究和设置的线程数有关,8个线程即生成8个rf文件,20个线程即生成20个rf文件。

    至此,小麦RNA-seq索引文件构建完毕,本人连续3次构建了小麦的index文件,文件大小略有不同,下一步测试比对index是否可用,同时测试run out of memory是否对索引文件构建的成功与否有影响,感谢崔老师。

    相关文章

      网友评论

        本文标题:小麦RNA-seq利用hisat2构建index过程

        本文链接:https://www.haomeiwen.com/subject/cpjmsctx.html