美文网首页生信上游分析-RNA-seq表达差异
科研干货 | 一文了解RNA序列比对软件HISAT2

科研干货 | 一文了解RNA序列比对软件HISAT2

作者: 贝瑞科服 | 来源:发表于2021-12-31 10:52 被阅读0次

    转录组测序自问世以来,在研究基因表达、转录本结构、基因融合、非编码RNA鉴定等方面发挥了重要的作用。在有参考基因组的转录组数据分析的过程中,序列比对是一个重要的分析步骤,Hisat2 是目前常用的一款转录组数据比对软件,具有比对速度快,节省资源,比对算法优良的特点。本文将系统的介绍一下Hisat2这款软件。

    一、Hisat2简介

    Hisat2是一款短序列比对的工具,主要用于转录组数据的比对,是Hisat比对工具的升级版。Hisat2优化了索引建立的策略,采用了新的比对策略,使其与Bowtie/TopHat2等软件相比具有更高的敏感性和更快的运算速度。Hisat2的官方网址是:http://daehwankimlab.github.io/hisat2/,大家可以查阅详细信息。

    二、Hisat2的下载与安装

    Hisat2的安装方法比较多,下面介绍两种常用的方法,第一种方法是通过conda安装,命令如下:

    $ conda install -c bioconda hisat2 ##conda 安装命令

    第二种方法是从官网下载安装包并安装,以2.2.1.0版本为例,命令如下:

    $ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip ##软件下载

    unzip hisat2-2.1.0-beta-Linux_x86_64.zip ##文件解压

    为了方便使用,可以通过如下命令修改用户的环境变量。

    $ vim ~/.bashrc ##以下为修改环境变量

    $ export PATH=/User/your_path:$PATH

    $ source ~/.bashrc

    三、Hisat2的使用

    1.索引的建立

    在使用Hisat2软件进行比对之前,需要获得参考基因组的index文件。该文件有两种获取方式,第一种方法是在官网上进行下载,目前官网提供人类、小鼠、褐家鼠、黑腹果蝇、线虫、酿酒酵母这六个物种的index文件。此外有些物种还会提供不同数据库来源或者多个基因组版本的信息,如人类基因组会提供hg38、hg19等多个版本的信息,对于模式物种的使用来说是个比较方便的方法。下载链接为:

    http://daehwankimlab.github.io/hisat2/download/

    第二种方法是自己构建index,这是适合非模式物种的一种方式,也是比较推荐的一种方法。以genome.fa作为参考基因组为例,具体方法如下:

    $ hisat2-build genome.fa genome.fa ##参考基因组的索引建立

    可添加参数说明:

    -p 线程数,根据计算机和参考基因组情况进行修改;

    --large-index,4G以上的基因组推荐加上这个参数;

    index建立完成后,会生成8个ht2结尾的文件,示例如下:

    2.序列比对

    在参考基因组的index完成之后,就可以对样品的测序数据进行比对了。Hisat2的输出文件格式是sam格式,sam文件占用存储较大,可以通过管道符和samtools 工具,将sam文件转换为bam文件,并对bam文件进行处理,如排序、去重等。具体命令如下:

    $ hisat2 -p 8 --dta-cufflinks -x ./hisat2-2.0.6_index/genome.fa -1 R1.fastq.gz -2 R2.fastq.gz --no-unal --un-conc |samtools view -Sb > test.bam ##hisat2比对

    3.常用参数说明

    Hisat2 参数较多,熟悉常用的参数可以帮助我们选择合适的参数进行分析和调整,常用的参数说明如下:

    -x 参考基因组索引文件的前缀

    -1 reads1,可以是压缩格式.gz .bz2

    -2 reads2

    -S 输出文件名(sam文件)

    -P 线程数

    -t 打印加载索引文件和对齐读取所需的时间

    --dta-cufflinks 出来的结果更适合cufflinks处理 (主要用于基因表达量的计算和差异表达基因的寻找)

    --no-unal 不记录没比对上的reads

    --un-conc 在输出文件写出与参考基因组不一致的reads对

    四、结果解读

    1.输出日志

    比对结束之后,Hisat2会输出日志文件,结果示例如下:

    该文件会给出数据的整体比对率,唯一比对率,多重比对等信息。根据该文件我们可以判断基因组的选择或者数据是否有问题。

    2.比对结果bam文件

    使用Hisat2软件进行比对之后生成的默认文件是sam文件格式,bam文件是sam文件的二进制格式,可以减小文件的存储。了解sam/bam文件的格式对后续的分析结果的筛选非常重要,sam/bam文件的格式示例如下:

    bam/sam文件的说明如下:

    第1列:reads名称;

    第2列:Flag标签;Flag标签是二进制数字之和,不同数字代表了不同的意义。比如下面的数据代表的含义如下:

    1:代表这个序列采用的是PE双端测序;

    2:代表这个序列和参考序列完全匹配,没有插入缺失;

    4:代表这个序列没有比对到参考序列上;

    8:代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上;

    16:代表这个序列比对到参考序列的负链上;

    32:代表这个序列对应的另一端序列比对到参考序列的负链上;

    64:代表这个序列是R1端序列,read1;

    128:代表这个序列是R2端序列,read2;

    256:代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的。

    第3列:比对到的染色体信息;

    第4列:比对到参考基因组物理位置;

    第5列:比对质量值(0-60);

    第6列:CIAGR(记录插入、缺失等);CIAGR中包含的是比对结果信息,表明了一条reads所有碱基的比对情况。比如CIGAR = 150M表示150bp的reads都比对到参考基因组上;常见的CIAGR标签表示的含义如下:

    第7列:配对reads比对到的染色体,=表示相同;

    第8列:配对reads比对到的染色体物理位置;

    第9列:文库插入序列大小;

    第10列:Reads序列;

    第11列:质量值。

    bam/sam文件的详细信息可以参见网址:

    http://samtools.github.io/hts-specs/SAMv1.pdf

    参考文献

    Kim, D., Paggi, J.M., Park, C.et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype.Nat Biotechnol 37, 907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4

    相关文章

      网友评论

        本文标题:科研干货 | 一文了解RNA序列比对软件HISAT2

        本文链接:https://www.haomeiwen.com/subject/qzjgqrtx.html