美文网首页
MeRIPseqPipe分析拆解05-数据比对之HISAT2

MeRIPseqPipe分析拆解05-数据比对之HISAT2

作者: 信你个鬼 | 来源:发表于2022-03-27 17:22 被阅读0次

    rRNA去除之后就开始进行数据比对了,这一步骤作者使用了三个比对软件:Tophat2,STAR,HISAT2,BWA。
    相应代码抠出来:
    HISAT2:


    image-20220326230833394.png

    继续扣出来运行~

    一、下载人的参考基因组序列

    去ensemble数据库:

    # 使用axel多线程下载数据,速度可到10M/s
    mkdir GRCh38
    cd GRCh38
    # 下载fa文件
    axel -n 100 http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
    # 下载gtf文件
    axel -n 100 http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz
    
    # 解压
    gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz Homo_sapiens.GRCh38.105.chr.gtf.gz
    

    二、构建索引

    # 激活小环境 
    conda activate rna
    
    # Human数据
    # HISAT2构建索引,Hisat2Index.sh内容为下
    mkdir Hisat2Index
    fasta=Homo_sapiens.GRCh38.dna.primary_assembly.fa
    gtf=Homo_sapiens.GRCh38.105.chr.gtf
    fasta_baseName=GRCh38
    
    # 提取外显子位点
    hisat2_extract_exons.py $gtf > Hisat2Index/${fasta_baseName}.exon
    
    # 提取可变剪切信息
    hisat2_extract_splice_sites.py $gtf > Hisat2Index/${fasta_baseName}.ss
    
    # 构建索引
    hisat2-build -p 12 -f $fasta --exon Hisat2Index/${fasta_baseName}.exon --ss Hisat2Index/${fasta_baseName}.ss Hisat2Index/${fasta_baseName}
    
    # 建议上面内容写成sh脚本,后台运行,好费时间稍微久一点
    nohup sh Hisat2Index.sh >Hisat2Index.sh.log &
    
    

    索引内容如下:
    ├── GRCh38.0.rf
    ├── GRCh38.10.rf
    ├── GRCh38.11.rf
    ├── GRCh38.1.ht2
    ├── GRCh38.1.rf
    ├── GRCh38.2.ht2
    ├── GRCh38.2.rf
    ├── GRCh38.3.ht2
    ├── GRCh38.3.rf
    ├── GRCh38.4.ht2
    ├── GRCh38.4.rf
    ├── GRCh38.5.rf
    ├── GRCh38.6.rf
    ├── GRCh38.7.ht2
    ├── GRCh38.7.rf
    ├── GRCh38.8.ht2
    ├── GRCh38.8.rf
    ├── GRCh38.9.rf
    ├── GRCh38.exon
    ├── GRCh38.rf
    └── GRCh38.ss

    三、数据比对

    • --dta:reports alignments tailored for transcript assemblers
    • --summary-file:print alignment summary to this file
    • -U:单端fq数据
    # 激活小环境 
    conda activate rna
    
    # 创建文件夹
    mkdir -p alignment/hisat2
    index_base=../GRCh38/Hisat2Index/GRCh38
    outdir=alignment/hisat2
    
    ls alignment/rRNA_dup/*gz |while read id
    do
    sample_name=${id##*/}
    sample_name=${sample_name%%.*}
    echo "hisat2 --summary-file ${outdir}/${sample_name}_hisat2_summary.txt -p 12 --dta -x $index_base -U $id | samtools view -@ 12 -hbS - >${outdir}/${sample_name}_hisat2.bam"
    done >hisat2.sh
    
    # 运行
    nohup sh hisat2.sh>hisat2.sh.log&
    

    hisat2.sh的内容:


    image-20220327170306770.png

    运行完之后目录下每个样本会生成一个比对统计结果文件*_hisat2_summary.txt与比对文件*_hisat2.bam
    其中,*_hisat2_summary.txt有总比对率,唯一比对率等比对的重要指标。

    相关文章

      网友评论

          本文标题:MeRIPseqPipe分析拆解05-数据比对之HISAT2

          本文链接:https://www.haomeiwen.com/subject/tceyjrtx.html