美文网首页
Hisat2安装及比对

Hisat2安装及比对

作者: 吕强强学生信 | 来源:发表于2022-04-28 17:07 被阅读0次

    Hisat2STAR是目前转录组分析过程中用来做比对的两款主要工具,记得有一篇好像是2017年的文章专门比较了几款转录组比对工具对结果的影响,结论中认为两款软件在实际使用过程中对结果影响及耗时区别不大,我认为选一款就可以,之前总是用STAR,今天试一下Hisat2

    一、官网下载软件及安装

    https://daehwankimlab.github.io/hisat2/

    Download页面,可以看到Hisat2非常友好地提供了二进制的程序及Index(比对时的索引文件),省去了后续的一些小麻烦。

    下载完后unzip进行解压,一开始报错:

    原来依赖的libstdc++.so.6需要高版本的库,我没有root权限,更新的话会很麻烦,果断降版本,下载的hisat2-2.1.0后,解压,尝试了一下,安装成功:

    二、构建索引Index

    Hisat2STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。

    区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的时候就可以考虑SNP的情况,需要通过下面命令将SNP文件转换成hisat2-build能使用的文件:

    extract_snps.py snp142Common.txt >genome.snp

    因为我研究的物种还没有集合SNP信息的文件,我只能建立涵盖基因组+转录组的索引:

    Hisat2提供两个Python脚本将GTF文件转换成hisat2-build能使用的文件,依次运行下面三个命令:

    extract_exons.py *.gtf > genome.exon

    extract_splice_sites.py *.gtf > genome.ss

    hisat2-build genome.fa -p 10 --ss genome.ss--exon genome.exon /path/to/genome_snp_tran

    最终生成的8*.ht是我们比对时需要的索引文件:

    三、Hisat2比对:

    -x  指定索引文件所在路径及前缀

    -p  线程数

    hisat2输出文件为sam格式,sam文件格式比较大,通常会直接通过“|”传输给samtools转为bam文件,并对bam文件进行sort排序,以便后面处理(此步骤通过生信技能树-健明老师帖子进行改进,在此致谢)

    四、结果

           结果会生成bam文件,为二进制格式,无法直接查看,可以导入IGV进行可视化,一般后面结果没有异常时,我不会去用IGV去看看比对结果去。而比对过程中的日志结果需要我们记录一下:

    我的总体比对率是73.19%,是比较低的,人的话得90%以上才认为是比较好,我的是非模式生物,目前也只能先接受这个结果了,后面得想办法再优化。

    参考

    Kim, D., Paggi,J.M., Park, C. et al. Graph-based genome alignment andgenotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37,907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4

    http://www.360doc.com/content/21/0714/12/76149697_986501798.shtml

    本文使用 文章同步助手 同步

    相关文章

      网友评论

          本文标题:Hisat2安装及比对

          本文链接:https://www.haomeiwen.com/subject/kkklyrtx.html