美文网首页ncRNA
小RNA数据分析-第二步

小RNA数据分析-第二步

作者: 纳灰灰 | 来源:发表于2019-03-04 20:18 被阅读4次

    上次讲到sRNA数据如何去接头,那么接下来的常规操作是什么?

    流程图

    一、去冗余(collapse)--- 用于比对的数据是否需要去冗余

    作用:将相同reads合并,记录相同reads出现的次数

    fastx_collapser -iSRR4010495_trimmed.fa -o SRR4010495_mc.fa

    去冗余后的数据形式

    去冗余后文件

    “-”之前为编号,“-”之后为该read的丰度

    当然也可以用CJ的TBtools来操作这一步:

    java -cpTBtools_JRE1.6.jar biocjava.sRNA.Tools.sRNAseqCollasper --inFxSRR4010495_trimmed.fa --outCollaspedFa SRR4010495_mc.fa

    Note:一般情况下去冗余这一步只在后续进行miRNA挖掘即预测phasiRNAs用到,用IGV查看的数据不需要去冗余,IGV需要展示每一条reads

    是否去冗余对于查看IGV的影响如下:

    去冗余

    上图为去冗余后的数据产生的比对文件

    未去冗余

    上图为未去冗余的数据产生的比对文件

    IGV对比

    去冗余后的数据reads覆盖度明显降低

    二、将未去冗余的数据回帖到基因组

    建bowtie索引

    bowtie-build -fFragaria_vesca.genome.fna Fragaria_vesca

    回帖

    bowtie  -a -m 50 -v 0 -p 12 -f -S Fragaria_vescaSRR4010495_trimmed.fa SRR4010495.mapping.sam

    #同一品种错配数为0;同一物种不同品种允许错配数为1,考虑到SNP的存在;

    三、比对文件排序建索引

    sambamba view -f bam-S SRR4010495.mapping.sam -o SRR4010495.mapping.bam -t 10

    sambamba sortSRR4010495.mapping.bam -o SRR4010495.mapping.sorted.bam -t 10

    sambamba indexSRR4010495.mapping.sorted.bam

    sambamba相对于samtools更快

    四、将比对文件加载到IGV查看sRNA数据

    导入基因组文件和*.sorted.bam和*.sorted.bam.bai文件

    sRNA数据可能会看到以下几种情况:

    1、产生miRNA的区域

    这个区域有两个产生于同一条链(红色:+;蓝色:-)的独立峰,两个峰之间无其他杂峰,高峰为miRNA的成熟序列reads,低峰为miRNA的star序列reads;

    右键高峰reads----Copy

    read sequence----miRBase中进行序列比对确认该miRNA是否有注释

    产生miRNA的区域

    2、产生phasiRNAs的区域

    这个区域包含两条链产生的reads,且产生的reads以较为整齐的21nt,21nt相位切割的形式呈现;

    用IGV的Define a region of interest工具选取PHAS区域及其前后各100bp的序列----psRNATarget预测该PHAS的trigger----Swissprot库比对查看该PHAS的注释

    产生phasiRNAs的区域

    3、重复序列区域

    基因组中有大量的重复序列,这种区域产生的reads多为24nt,因此sRNA测序数据数量最多为24nt的reads;这个区域的reads通常没有相位切割的规律,以“一片云”的状态呈现

    重复序列区域

    相关文章

      网友评论

        本文标题:小RNA数据分析-第二步

        本文链接:https://www.haomeiwen.com/subject/pcdwuqtx.html