HISAT2是一个快速和敏感的比对软件,用于将二代测序数据(DNA和RNA)比对到基因组数据。
官网:
http://daehwankimlab.github.io/hisat2/
1. 下载安装
1.1 下载
选择合适的版本下载压缩包。
链接:
http://daehwankimlab.github.io/hisat2/download/
1.2 安装
$ unzip hisat2-2.2.1-Linux_x86_64.zip
$ cd ~/hisat2-2.2.1
2. 准备数据
说明书:
http://daehwankimlab.github.io/hisat2/howto/
- 下载参考基因组 *.fa;
- 下载GTF文件,并提取外显子,剪接位点文件;
如何将gff3转为gtf详情见下链接:
gff格式与gtf格式转换——NBISweden / AGAT - 简书 (jianshu.com)
$ hisat2_extract_exons.py CE10g_v2.0.gtf > CE10g_v2.0.exon
$ hisat2_extract_splice_sites.py CE10g_v2.0.gtf > CE10g_v2.0.ss
3. 建立HFM索引
为基因组文件 *.fa建立索引,-p 16是16核进行运算,这里要根据服务器的情况进行修改,前一个CE10g_v2.0.fa是基因组文件名称,后一个CE10g_v2.0是输出文件的前缀。
$ hisat2-build -p 16 CE10g_v2.0.fa CE10g_v2.0
4. 转录本建立HGFM(Hierarchical Graph FM index)索引
这一步需要的时间比较长,需要的文件有:
- CE10g_v2.0.exon
- CE10g_v2.0.ss
- CE10g_v2.0.fa
$ vim trans.sh
$ hisat2-build -p 16 CE10g_v2.0.fa --ss CE10g_v2.0.ss --exon CE10g_v2.0.exon CE10g_v2.0 --large-index
$ bsub -n 16 trans.sh
5. 序列比对
说明书:
http://daehwankimlab.github.io/hisat2/manual/
基础用法:
$ hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]
-x <hisat2-idx>:参考基因组索引文件的前缀
-1 <m1>:双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。
-2 <m2>:双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。
-S <hit>:比对结果输出的SAM文件。
$ vim alig.sh
$ hisat2 -p 48 --dta -x /gss1/home/fzhang/sunwei/ding/ref/CE10g_v2.0 -1 /gss1/home/fzhang/sunwei/ding/CPF1_R1_1.fq.gz -2 /gss1/home/fzhang/sunwei/ding/CPF1_R1_2.fq.gz -S CPF1_R1.sam
$ bsub -n 48 alig.sh
引用转载请注明出处,如有错误敬请指出。
网友评论