美文网首页
MeRIPseqPipe分析拆解05-数据比对之HISAT2

MeRIPseqPipe分析拆解05-数据比对之HISAT2

作者: 信你个鬼 | 来源:发表于2022-03-27 17:22 被阅读0次

rRNA去除之后就开始进行数据比对了,这一步骤作者使用了三个比对软件:Tophat2,STAR,HISAT2,BWA。
相应代码抠出来:
HISAT2:


image-20220326230833394.png

继续扣出来运行~

一、下载人的参考基因组序列

去ensemble数据库:

# 使用axel多线程下载数据,速度可到10M/s
mkdir GRCh38
cd GRCh38
# 下载fa文件
axel -n 100 http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 下载gtf文件
axel -n 100 http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz

# 解压
gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz Homo_sapiens.GRCh38.105.chr.gtf.gz

二、构建索引

# 激活小环境 
conda activate rna

# Human数据
# HISAT2构建索引,Hisat2Index.sh内容为下
mkdir Hisat2Index
fasta=Homo_sapiens.GRCh38.dna.primary_assembly.fa
gtf=Homo_sapiens.GRCh38.105.chr.gtf
fasta_baseName=GRCh38

# 提取外显子位点
hisat2_extract_exons.py $gtf > Hisat2Index/${fasta_baseName}.exon

# 提取可变剪切信息
hisat2_extract_splice_sites.py $gtf > Hisat2Index/${fasta_baseName}.ss

# 构建索引
hisat2-build -p 12 -f $fasta --exon Hisat2Index/${fasta_baseName}.exon --ss Hisat2Index/${fasta_baseName}.ss Hisat2Index/${fasta_baseName}

# 建议上面内容写成sh脚本,后台运行,好费时间稍微久一点
nohup sh Hisat2Index.sh >Hisat2Index.sh.log &

索引内容如下:
├── GRCh38.0.rf
├── GRCh38.10.rf
├── GRCh38.11.rf
├── GRCh38.1.ht2
├── GRCh38.1.rf
├── GRCh38.2.ht2
├── GRCh38.2.rf
├── GRCh38.3.ht2
├── GRCh38.3.rf
├── GRCh38.4.ht2
├── GRCh38.4.rf
├── GRCh38.5.rf
├── GRCh38.6.rf
├── GRCh38.7.ht2
├── GRCh38.7.rf
├── GRCh38.8.ht2
├── GRCh38.8.rf
├── GRCh38.9.rf
├── GRCh38.exon
├── GRCh38.rf
└── GRCh38.ss

三、数据比对

  • --dta:reports alignments tailored for transcript assemblers
  • --summary-file:print alignment summary to this file
  • -U:单端fq数据
# 激活小环境 
conda activate rna

# 创建文件夹
mkdir -p alignment/hisat2
index_base=../GRCh38/Hisat2Index/GRCh38
outdir=alignment/hisat2

ls alignment/rRNA_dup/*gz |while read id
do
sample_name=${id##*/}
sample_name=${sample_name%%.*}
echo "hisat2 --summary-file ${outdir}/${sample_name}_hisat2_summary.txt -p 12 --dta -x $index_base -U $id | samtools view -@ 12 -hbS - >${outdir}/${sample_name}_hisat2.bam"
done >hisat2.sh

# 运行
nohup sh hisat2.sh>hisat2.sh.log&

hisat2.sh的内容:


image-20220327170306770.png

运行完之后目录下每个样本会生成一个比对统计结果文件*_hisat2_summary.txt与比对文件*_hisat2.bam
其中,*_hisat2_summary.txt有总比对率,唯一比对率等比对的重要指标。

相关文章

网友评论

      本文标题:MeRIPseqPipe分析拆解05-数据比对之HISAT2

      本文链接:https://www.haomeiwen.com/subject/tceyjrtx.html