【零基础练习一个RNA-seq分析】CH4：序列比对（hisat

作者: josia_luo | 来源:发表于2020-08-12 11:01 被阅读0次

【零基础练习一个RNA-seq分析】CH4：序列比对（hisat
Samtools为何会报错：不能共享文件libbz2.so.1.
比对软件STAR的使用
HISAT: 一款快速的低内存的基因组比对软件
200826 Circ之旅3-构建人类基因组索引
RNA-seq 检测变异之 GATK 最佳实践流程
RNA-seq(5):序列比对：Hisat2
2018-12-19
序列比对中的基本概念
RNA-seq分析：从fastq到差异表达基因

这里算是正式进入了RNA-seq的数据分析阶段。第一个工序是序列比对。比对的基本原理就是将打断后的read回贴到index上。具体理论部分参考https://www.jianshu.com/p/681e02e7f9af

获得index

人和小鼠的index有现成的，我们去hista2官网把人和小鼠的index都下载了。wget实在太慢了，我就用迅雷下载并且解压后拷贝到云服务器上。

HISAT2官网

开始比对

输入代码，注意数据文件的生物来源

for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done

我们再来看看hisat2的用法
基本语句：hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> } [-S <hit>]
-x <参考基因组文件前缀>
-1 <双端测序的第一个文件>
-2 <双端测序的第二个文件>
-S <输出SAM文件>
慢慢对比吧，可能要花上很长时间。这一步对memory有较高的要求。

比对后处理

因为人的数据缺少control，所以我们之后用小鼠的4组数据开始分析。
在得到SAM文件后，我们需要将其转换为bam文件，进行排序后建立索引。

for i in `seq 56 62`
do
    samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
    samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
    samtools index SRR35899${i}_sorted.bam
done

具体原理参见https://www.jianshu.com/p/681e02e7f9af

质控结果

python2环境下安装RSeQC后进行进行质控流程，看看

pip install RSeQC #安装软件
for i in `seq 56 62`; do bam_stat.py -i SRR35899${i}_sorted.bam; done #质控

这部分有点虎头蛇尾，关于IGV相关内容之后再写吧。

网友评论

本文标题：【零基础练习一个RNA-seq分析】CH4：序列比对（hisat

本文链接：https://www.haomeiwen.com/subject/yykgrktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【零基础练习一个RNA-seq分析】CH4：序列比对（hisat

获得index

开始比对

比对后处理

质控结果

相关文章

【零基础练习一个RNA-seq分析】CH4：序列比对（hisat

Samtools为何会报错：不能共享文件libbz2.so.1.

比对软件STAR的使用

HISAT: 一款快速的低内存的基因组比对软件

200826 Circ之旅3-构建人类基因组索引

RNA-seq 检测变异之 GATK 最佳实践流程

RNA-seq(5):序列比对：Hisat2

2018-12-19

序列比对中的基本概念

RNA-seq分析：从fastq到差异表达基因

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读