美文网首页
序列比对 —— Hisat2

序列比对 —— Hisat2

作者: Wei_Sun | 来源:发表于2022-01-20 18:46 被阅读0次

    HISAT2是一个快速和敏感的比对软件,用于将二代测序数据(DNA和RNA)比对到基因组数据。

    官网:
    http://daehwankimlab.github.io/hisat2/

    1. 下载安装

    1.1 下载

    选择合适的版本下载压缩包。

    链接:
    http://daehwankimlab.github.io/hisat2/download/

    1.2 安装

    $ unzip hisat2-2.2.1-Linux_x86_64.zip
    $ cd ~/hisat2-2.2.1
    

    2. 准备数据

    说明书:
    http://daehwankimlab.github.io/hisat2/howto/

    $ hisat2_extract_exons.py CE10g_v2.0.gtf > CE10g_v2.0.exon
    $ hisat2_extract_splice_sites.py CE10g_v2.0.gtf > CE10g_v2.0.ss
    

    3. 建立HFM索引

    为基因组文件 *.fa建立索引,-p 16是16核进行运算,这里要根据服务器的情况进行修改,前一个CE10g_v2.0.fa是基因组文件名称,后一个CE10g_v2.0是输出文件的前缀。

    $ hisat2-build -p 16 CE10g_v2.0.fa CE10g_v2.0
    

    4. 转录本建立HGFM(Hierarchical Graph FM index)索引

    这一步需要的时间比较长,需要的文件有:

    • CE10g_v2.0.exon
    • CE10g_v2.0.ss
    • CE10g_v2.0.fa
    $ vim trans.sh
    $ hisat2-build -p 16 CE10g_v2.0.fa --ss CE10g_v2.0.ss --exon CE10g_v2.0.exon CE10g_v2.0 --large-index
    $ bsub -n 16 trans.sh
    

    5. 序列比对

    说明书:
    http://daehwankimlab.github.io/hisat2/manual/

    基础用法:

    $ hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]
    

    -x <hisat2-idx>:参考基因组索引文件的前缀
    -1 <m1>:双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。
    -2 <m2>:双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。
    -S <hit>:比对结果输出的SAM文件。

    $ vim alig.sh
    $ hisat2 -p 48 --dta -x /gss1/home/fzhang/sunwei/ding/ref/CE10g_v2.0 -1 /gss1/home/fzhang/sunwei/ding/CPF1_R1_1.fq.gz -2 /gss1/home/fzhang/sunwei/ding/CPF1_R1_2.fq.gz -S CPF1_R1.sam 
    $ bsub -n 48 alig.sh
    

    引用转载请注明出处,如有错误敬请指出。

    相关文章

      网友评论

          本文标题:序列比对 —— Hisat2

          本文链接:https://www.haomeiwen.com/subject/oluxhrtx.html