美文网首页
【零基础练习一个RNA-seq分析】CH4:序列比对(hisat

【零基础练习一个RNA-seq分析】CH4:序列比对(hisat

作者: josia_luo | 来源:发表于2020-08-12 11:01 被阅读0次

    这里算是正式进入了RNA-seq的数据分析阶段。第一个工序是序列比对。比对的基本原理就是将打断后的read回贴到index上。具体理论部分参考https://www.jianshu.com/p/681e02e7f9af

    获得index

    人和小鼠的index有现成的,我们去hista2官网把人和小鼠的index都下载了。wget实在太慢了,我就用迅雷下载并且解压后拷贝到云服务器上。

    HISAT2官网

    开始比对

    输入代码,注意数据文件的生物来源

    for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
    for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
    

    我们再来看看hisat2的用法
    基本语句:hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> } [-S <hit>]
    -x <参考基因组文件前缀>
    -1 <双端测序的第一个文件>
    -2 <双端测序的第二个文件>
    -S <输出SAM文件>
    慢慢对比吧,可能要花上很长时间。这一步对memory有较高的要求。

    比对后处理

    因为人的数据缺少control,所以我们之后用小鼠的4组数据开始分析。
    在得到SAM文件后,我们需要将其转换为bam文件,进行排序后建立索引。

    for i in `seq 56 62`
    do
        samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
        samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
        samtools index SRR35899${i}_sorted.bam
    done
    

    具体原理参见https://www.jianshu.com/p/681e02e7f9af

    质控结果

    python2环境下安装RSeQC后进行进行质控流程,看看

    pip install RSeQC #安装软件
    for i in `seq 56 62`; do bam_stat.py -i SRR35899${i}_sorted.bam; done #质控
    

    这部分有点虎头蛇尾,关于IGV相关内容之后再写吧。

    相关文章

      网友评论

          本文标题:【零基础练习一个RNA-seq分析】CH4:序列比对(hisat

          本文链接:https://www.haomeiwen.com/subject/yykgrktx.html