美文网首页m6ASeq RNA甲基化测序
m6A图文复现03-数据比对之去除rRNA

m6A图文复现03-数据比对之去除rRNA

作者: 信你个鬼 | 来源:发表于2021-08-18 10:16 被阅读0次

    在上一期中我们得到了cleandata,接下来是要比对到参考基因上进行比对过程的分析。一般来说,在比对之前,我们可以选择先去除rRNA序列然后再与参考基因组进行比对,文章中采用的策略也是如此:

    image-20210713202505327.png

    那么你或许会有以下几个随着而来的问题:

    • 1.为什么测序数据中会出现rRNA?
    • 2.rRNA不去除与去除会对我后面的分析造成什么样的影响?

    rRNA背景知识

    在进行具体操作之前,我们可以来先了解一下rRNA这个东西。

    首先,看rRNA在整个细胞中的组成比例:从mass指标来看,一个哺乳动物的细胞中rRNA占比最多,能达到80-90%

    image-20210713203007244.png

    比例:

    image-20210713220458206.png

    Note:Estimate of RNA levels in a typical mammalian cell。ref:Front Genet. 2015 Jan 26;6:2

    rRNA在参考基因组上存在多个copy:比对时会造成数据比对结果中多比率偏高。rRNA的存在对后续的影响就主要看后面的分析使用的是唯一比对reads还是所有比对上的reads了。那么,数据中为什么会测到rRNA呢?这就跟前期建库采用的策略有关系了,去除rRNA的试剂盒的效率等问题。

    此次,我们先去文中提到的网址下载rRNA序列,然后使用bowtie2进行比对。

    rRNA序列下载

    打开NCBI网址,选择Taxonomy数据库,输入10090,10090为小鼠的物种ID

    image-20210720003031428.png

    选择右侧 Nucleotide

    image-20210720003206305.png

    保存

    image-20210720003726949.png

    下载下来的数据:fasta格式

    image-20210720003900895.png

    确认一下下载是否完整,为82条:

    image-20210720004249139.png

    rRNA比对保存没有比对上的序列

    首先,建索引:

    bowtie2-build Mus_musculus.rRNA.fa Mus_musculus.rRNA
    

    索引结果:

    image-20210720010555682.png

    比对:

    mkdir bowtie2
    
    # 换成自己的路径,注意index为索引前缀
    index=/path/rRNA_index/Mus_musculus.rRNA 
    od=/path/bowtie2
    
    # 单端数据
    ls *gz |while read id
    do
      sam=${id%_*};
      nohup bowtie2 -x $index --un-gz ${od}/${sam}.derRNA.fq.gz -U $id -p 8 -S ${od}/${sam}.rRNA.mapped.sam 2>${od}/${sam}.log &
    done
    
    # 双端数据
    可以看文献中的代码,文献中提供的为双端数据
    

    比对完之后的数据:

    image-20210714001313058.png

    后续更新~

    相关文章

      网友评论

        本文标题:m6A图文复现03-数据比对之去除rRNA

        本文链接:https://www.haomeiwen.com/subject/cjivbltx.html