转录组测序自问世以来,在研究基因表达、转录本结构、基因融合、非编码RNA鉴定等方面发挥了重要的作用。在有参考基因组的转录组数据分析的过程中,序列比对是一个重要的分析步骤,Hisat2 是目前常用的一款转录组数据比对软件,具有比对速度快,节省资源,比对算法优良的特点。本文将系统的介绍一下Hisat2这款软件。
一、Hisat2简介
Hisat2是一款短序列比对的工具,主要用于转录组数据的比对,是Hisat比对工具的升级版。Hisat2优化了索引建立的策略,采用了新的比对策略,使其与Bowtie/TopHat2等软件相比具有更高的敏感性和更快的运算速度。Hisat2的官方网址是:http://daehwankimlab.github.io/hisat2/,大家可以查阅详细信息。
二、Hisat2的下载与安装
Hisat2的安装方法比较多,下面介绍两种常用的方法,第一种方法是通过conda安装,命令如下:
$ conda install -c bioconda hisat2 ##conda 安装命令
第二种方法是从官网下载安装包并安装,以2.2.1.0版本为例,命令如下:
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip ##软件下载
unzip hisat2-2.1.0-beta-Linux_x86_64.zip ##文件解压
为了方便使用,可以通过如下命令修改用户的环境变量。
$ vim ~/.bashrc ##以下为修改环境变量
$ export PATH=/User/your_path:$PATH
$ source ~/.bashrc
三、Hisat2的使用
1.索引的建立
在使用Hisat2软件进行比对之前,需要获得参考基因组的index文件。该文件有两种获取方式,第一种方法是在官网上进行下载,目前官网提供人类、小鼠、褐家鼠、黑腹果蝇、线虫、酿酒酵母这六个物种的index文件。此外有些物种还会提供不同数据库来源或者多个基因组版本的信息,如人类基因组会提供hg38、hg19等多个版本的信息,对于模式物种的使用来说是个比较方便的方法。下载链接为:
http://daehwankimlab.github.io/hisat2/download/。
第二种方法是自己构建index,这是适合非模式物种的一种方式,也是比较推荐的一种方法。以genome.fa作为参考基因组为例,具体方法如下:
$ hisat2-build genome.fa genome.fa ##参考基因组的索引建立
可添加参数说明:
-p 线程数,根据计算机和参考基因组情况进行修改;
--large-index,4G以上的基因组推荐加上这个参数;
index建立完成后,会生成8个ht2结尾的文件,示例如下:
2.序列比对
在参考基因组的index完成之后,就可以对样品的测序数据进行比对了。Hisat2的输出文件格式是sam格式,sam文件占用存储较大,可以通过管道符和samtools 工具,将sam文件转换为bam文件,并对bam文件进行处理,如排序、去重等。具体命令如下:
$ hisat2 -p 8 --dta-cufflinks -x ./hisat2-2.0.6_index/genome.fa -1 R1.fastq.gz -2 R2.fastq.gz --no-unal --un-conc |samtools view -Sb > test.bam ##hisat2比对
3.常用参数说明
Hisat2 参数较多,熟悉常用的参数可以帮助我们选择合适的参数进行分析和调整,常用的参数说明如下:
-x 参考基因组索引文件的前缀
-1 reads1,可以是压缩格式.gz .bz2
-2 reads2
-S 输出文件名(sam文件)
-P 线程数
-t 打印加载索引文件和对齐读取所需的时间
--dta-cufflinks 出来的结果更适合cufflinks处理 (主要用于基因表达量的计算和差异表达基因的寻找)
--no-unal 不记录没比对上的reads
--un-conc 在输出文件写出与参考基因组不一致的reads对
四、结果解读
1.输出日志
比对结束之后,Hisat2会输出日志文件,结果示例如下:
该文件会给出数据的整体比对率,唯一比对率,多重比对等信息。根据该文件我们可以判断基因组的选择或者数据是否有问题。
2.比对结果bam文件
使用Hisat2软件进行比对之后生成的默认文件是sam文件格式,bam文件是sam文件的二进制格式,可以减小文件的存储。了解sam/bam文件的格式对后续的分析结果的筛选非常重要,sam/bam文件的格式示例如下:
bam/sam文件的说明如下:
第1列:reads名称;
第2列:Flag标签;Flag标签是二进制数字之和,不同数字代表了不同的意义。比如下面的数据代表的含义如下:
1:代表这个序列采用的是PE双端测序;
2:代表这个序列和参考序列完全匹配,没有插入缺失;
4:代表这个序列没有比对到参考序列上;
8:代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上;
16:代表这个序列比对到参考序列的负链上;
32:代表这个序列对应的另一端序列比对到参考序列的负链上;
64:代表这个序列是R1端序列,read1;
128:代表这个序列是R2端序列,read2;
256:代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的。
第3列:比对到的染色体信息;
第4列:比对到参考基因组物理位置;
第5列:比对质量值(0-60);
第6列:CIAGR(记录插入、缺失等);CIAGR中包含的是比对结果信息,表明了一条reads所有碱基的比对情况。比如CIGAR = 150M表示150bp的reads都比对到参考基因组上;常见的CIAGR标签表示的含义如下:
第7列:配对reads比对到的染色体,=表示相同;
第8列:配对reads比对到的染色体物理位置;
第9列:文库插入序列大小;
第10列:Reads序列;
第11列:质量值。
bam/sam文件的详细信息可以参见网址:
http://samtools.github.io/hts-specs/SAMv1.pdf
参考文献
Kim, D., Paggi, J.M., Park, C.et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype.Nat Biotechnol 37, 907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4
网友评论