科研干货 | 一文了解RNA序列比对软件HISAT2

作者: 贝瑞科服 | 来源:发表于2021-12-31 10:52 被阅读0次

转录组测序自问世以来，在研究基因表达、转录本结构、基因融合、非编码RNA鉴定等方面发挥了重要的作用。在有参考基因组的转录组数据分析的过程中，序列比对是一个重要的分析步骤，Hisat2 是目前常用的一款转录组数据比对软件，具有比对速度快，节省资源，比对算法优良的特点。本文将系统的介绍一下Hisat2这款软件。

一、Hisat2简介

Hisat2是一款短序列比对的工具，主要用于转录组数据的比对，是Hisat比对工具的升级版。Hisat2优化了索引建立的策略，采用了新的比对策略，使其与Bowtie/TopHat2等软件相比具有更高的敏感性和更快的运算速度。Hisat2的官方网址是：http://daehwankimlab.github.io/hisat2/，大家可以查阅详细信息。

二、Hisat2的下载与安装

Hisat2的安装方法比较多，下面介绍两种常用的方法，第一种方法是通过conda安装，命令如下：

$ conda install -c bioconda hisat2 ##conda 安装命令

第二种方法是从官网下载安装包并安装，以2.2.1.0版本为例，命令如下：

$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip ##软件下载

unzip hisat2-2.1.0-beta-Linux_x86_64.zip ##文件解压

为了方便使用，可以通过如下命令修改用户的环境变量。

$ vim ~/.bashrc ##以下为修改环境变量

$ export PATH=/User/your_path:$PATH

$ source ~/.bashrc

三、Hisat2的使用

1.索引的建立

在使用Hisat2软件进行比对之前，需要获得参考基因组的index文件。该文件有两种获取方式，第一种方法是在官网上进行下载，目前官网提供人类、小鼠、褐家鼠、黑腹果蝇、线虫、酿酒酵母这六个物种的index文件。此外有些物种还会提供不同数据库来源或者多个基因组版本的信息，如人类基因组会提供hg38、hg19等多个版本的信息，对于模式物种的使用来说是个比较方便的方法。下载链接为：

http://daehwankimlab.github.io/hisat2/download/。

第二种方法是自己构建index，这是适合非模式物种的一种方式，也是比较推荐的一种方法。以genome.fa作为参考基因组为例，具体方法如下：

$ hisat2-build genome.fa genome.fa ##参考基因组的索引建立

可添加参数说明：

-p 线程数，根据计算机和参考基因组情况进行修改；

--large-index，4G以上的基因组推荐加上这个参数；

index建立完成后，会生成8个ht2结尾的文件，示例如下：

2.序列比对

在参考基因组的index完成之后，就可以对样品的测序数据进行比对了。Hisat2的输出文件格式是sam格式，sam文件占用存储较大，可以通过管道符和samtools 工具，将sam文件转换为bam文件，并对bam文件进行处理，如排序、去重等。具体命令如下：

$ hisat2 -p 8 --dta-cufflinks -x ./hisat2-2.0.6_index/genome.fa -1 R1.fastq.gz -2 R2.fastq.gz --no-unal --un-conc |samtools view -Sb > test.bam ##hisat2比对

3.常用参数说明

Hisat2 参数较多，熟悉常用的参数可以帮助我们选择合适的参数进行分析和调整，常用的参数说明如下：

-x 参考基因组索引文件的前缀

-1 reads1，可以是压缩格式.gz .bz2

-2 reads2

-S 输出文件名（sam文件）

-P 线程数

-t 打印加载索引文件和对齐读取所需的时间

--dta-cufflinks 出来的结果更适合cufflinks处理（主要用于基因表达量的计算和差异表达基因的寻找）

--no-unal 不记录没比对上的reads

--un-conc 在输出文件写出与参考基因组不一致的reads对

四、结果解读

1.输出日志

比对结束之后，Hisat2会输出日志文件，结果示例如下：

该文件会给出数据的整体比对率，唯一比对率，多重比对等信息。根据该文件我们可以判断基因组的选择或者数据是否有问题。

2.比对结果bam文件

使用Hisat2软件进行比对之后生成的默认文件是sam文件格式，bam文件是sam文件的二进制格式，可以减小文件的存储。了解sam/bam文件的格式对后续的分析结果的筛选非常重要，sam/bam文件的格式示例如下：

bam/sam文件的说明如下：

第1列：reads名称；

第2列：Flag标签；Flag标签是二进制数字之和，不同数字代表了不同的意义。比如下面的数据代表的含义如下：

1：代表这个序列采用的是PE双端测序；

2：代表这个序列和参考序列完全匹配，没有插入缺失；

4：代表这个序列没有比对到参考序列上；

8：代表这个序列的另一端序列没有比对到参考序列上，比如这条序列是R1,它对应的R2端序列没有比对到参考序列上；

16：代表这个序列比对到参考序列的负链上；

32：代表这个序列对应的另一端序列比对到参考序列的负链上；

64：代表这个序列是R1端序列，read1；

128：代表这个序列是R2端序列，read2；

256：代表这个序列不是主要的比对，一条序列可能比对到参考序列的多个位置，只有一个是首要的比对位置，其他都是次要的。

第3列：比对到的染色体信息；

第4列：比对到参考基因组物理位置；

第5列：比对质量值（0-60）；

第6列：CIAGR（记录插入、缺失等）；CIAGR中包含的是比对结果信息，表明了一条reads所有碱基的比对情况。比如CIGAR = 150M表示150bp的reads都比对到参考基因组上；常见的CIAGR标签表示的含义如下：

第7列：配对reads比对到的染色体，=表示相同；

第8列：配对reads比对到的染色体物理位置；

第9列：文库插入序列大小；

第10列：Reads序列；

第11列：质量值。

bam/sam文件的详细信息可以参见网址：

http://samtools.github.io/hts-specs/SAMv1.pdf

参考文献

Kim, D., Paggi, J.M., Park, C.et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype.Nat Biotechnol 37, 907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4

网友评论

生信上游分析-RNA-seq表达差异

本文标题：科研干货 | 一文了解RNA序列比对软件HISAT2

本文链接：https://www.haomeiwen.com/subject/qzjgqrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

科研干货 | 一文了解RNA序列比对软件HISAT2

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信上游分析-RNA-seq表达差异