这里算是正式进入了RNA-seq的数据分析阶段。第一个工序是序列比对。比对的基本原理就是将打断后的read回贴到index上。具体理论部分参考https://www.jianshu.com/p/681e02e7f9af
获得index
人和小鼠的index有现成的,我们去hista2官网把人和小鼠的index都下载了。wget实在太慢了,我就用迅雷下载并且解压后拷贝到云服务器上。
开始比对
输入代码,注意数据文件的生物来源
for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
我们再来看看hisat2的用法
基本语句:hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> } [-S <hit>]
-x <参考基因组文件前缀>
-1 <双端测序的第一个文件>
-2 <双端测序的第二个文件>
-S <输出SAM文件>
慢慢对比吧,可能要花上很长时间。这一步对memory有较高的要求。
比对后处理
因为人的数据缺少control,所以我们之后用小鼠的4组数据开始分析。
在得到SAM文件后,我们需要将其转换为bam文件,进行排序后建立索引。
for i in `seq 56 62`
do
samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
samtools index SRR35899${i}_sorted.bam
done
具体原理参见https://www.jianshu.com/p/681e02e7f9af
质控结果
python2环境下安装RSeQC后进行进行质控流程,看看
pip install RSeQC #安装软件
for i in `seq 56 62`; do bam_stat.py -i SRR35899${i}_sorted.bam; done #质控
这部分有点虎头蛇尾,关于IGV相关内容之后再写吧。
网友评论