美文网首页
序列比对 —— Hisat2

序列比对 —— Hisat2

作者: Wei_Sun | 来源:发表于2022-01-20 18:46 被阅读0次

HISAT2是一个快速和敏感的比对软件,用于将二代测序数据(DNA和RNA)比对到基因组数据。

官网:
http://daehwankimlab.github.io/hisat2/

1. 下载安装

1.1 下载

选择合适的版本下载压缩包。

链接:
http://daehwankimlab.github.io/hisat2/download/

1.2 安装

$ unzip hisat2-2.2.1-Linux_x86_64.zip
$ cd ~/hisat2-2.2.1

2. 准备数据

说明书:
http://daehwankimlab.github.io/hisat2/howto/

$ hisat2_extract_exons.py CE10g_v2.0.gtf > CE10g_v2.0.exon
$ hisat2_extract_splice_sites.py CE10g_v2.0.gtf > CE10g_v2.0.ss

3. 建立HFM索引

为基因组文件 *.fa建立索引,-p 16是16核进行运算,这里要根据服务器的情况进行修改,前一个CE10g_v2.0.fa是基因组文件名称,后一个CE10g_v2.0是输出文件的前缀。

$ hisat2-build -p 16 CE10g_v2.0.fa CE10g_v2.0

4. 转录本建立HGFM(Hierarchical Graph FM index)索引

这一步需要的时间比较长,需要的文件有:

  • CE10g_v2.0.exon
  • CE10g_v2.0.ss
  • CE10g_v2.0.fa
$ vim trans.sh
$ hisat2-build -p 16 CE10g_v2.0.fa --ss CE10g_v2.0.ss --exon CE10g_v2.0.exon CE10g_v2.0 --large-index
$ bsub -n 16 trans.sh

5. 序列比对

说明书:
http://daehwankimlab.github.io/hisat2/manual/

基础用法:

$ hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]

-x <hisat2-idx>:参考基因组索引文件的前缀
-1 <m1>:双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。
-2 <m2>:双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。
-S <hit>:比对结果输出的SAM文件。

$ vim alig.sh
$ hisat2 -p 48 --dta -x /gss1/home/fzhang/sunwei/ding/ref/CE10g_v2.0 -1 /gss1/home/fzhang/sunwei/ding/CPF1_R1_1.fq.gz -2 /gss1/home/fzhang/sunwei/ding/CPF1_R1_2.fq.gz -S CPF1_R1.sam 
$ bsub -n 48 alig.sh

引用转载请注明出处,如有错误敬请指出。

相关文章

网友评论

      本文标题:序列比对 —— Hisat2

      本文链接:https://www.haomeiwen.com/subject/oluxhrtx.html