美文网首页生信分析流程暑期培训生物信息学
small RNA学习(八):降解组分析

small RNA学习(八):降解组分析

作者: TOP生物信息 | 来源:发表于2019-04-16 01:15 被阅读32次

    1. 降解组(测序)是什么?分析原理是什么?

    在植物中,通常miRNA与靶标序列结合紧密,在结合位点的第10/11位碱基处直接剪切mRNA从而调控下游的mRNA表达。被剪切后的mRNA变为两段,其中之一是含有3'-polyA尾巴且5'不含cap的片段。在测序过程中,针对这种断片特异捕获,就是降解组测序了。

    那分析思路是怎么样的呢?
    首先是将降解组测序reads比对到转录本,比对深度明显增高的那些位点重点关注,这些位点的5'的上下游各取15bp左右的序列作为A集合,再将小RNA序列集跟A序列集比较看是否能反向互补上(也可以理解为,将小RNA比对到转录本,比对上的位点记为B集合,看A集合与B集合是否有重叠),若能,则记录下小RNA与转录本的对应关系。

    根据上述的原理,不难发现,降解组分析主要是三个数据文件:

    1. 降解组测序数据
    2. 转录本序列
    3. 小RNA序列

    2. 安装

    需要提前准备的几个Perl模块和软件

    Getopt::Std
    Math::CDF
    
    bowtie (version 0.12.x or 1.x)
    bowtie-build
    RNAplex (from Vienna RNA package)
    GSTAr.pl (Version 1.0 or higher -- distrubuted with CleaveLand4)
    R
    samtools
    #确保都已添加到环境变量PATH中
    

    安装细节详见:https://github.com/MikeAxtell/CleaveLand4.git,这里就不赘述了。

    3. 举个栗子

    #在有多个版本Perl可以使用的情况下,用哪一个Perl安装的预备模块,就用绝对路径调用哪一个Perl。
    perl CleaveLand4.pl \
    -e degradome.clean.fa.gz \
    -u osa-miR211a.fasta \
    -n xxx.fasta \
    -p 0.05 -c 2 \
    -t -o ./test_plot > out.txt
    #-e: Path to FASTA-formatted degradome reads
    #-u: Path to FASTA-formatted small RNA queries
    #-n: Path to FASTA-formatted transcriptome
    #-p: p-value阈值,以此来过滤不大可信的小RNA与靶标的对应关系
    #-c: DegradomeCategory共有5类,0-4,越小表示对应关系越可信
    #-t: 输出文件制表符分割
    #-o: T-plots存放的文件夹名称,注意该名称不能含有"/"符号也就是不能有子文件夹,类似./test/plot1
    

    看看结果

    $ ls
    out2.txt  degradome.clean.fa.gz_dd.txt  test2_plot
    
    $ head -n 30 degradome.clean.fa.gz_dd.txt #将降解组reads比对到转录本之后的结果-hsy
    # CleaveLand4 degradome density
    # Wed Mar  6 10:19:26 CST 2019
    # Degradome Reads:./degradome.clean.fa.gz
    # Transcriptome:./xxx.fasta
    # TranscriptomeCharacters:12257028
    # Mean Degradome Read Size:20 #降解组reads平均长度-hsy
    # Estimated effective Transcriptome Size:11901028
    # Category 0:8011 #这几个分类下面会讲-hsy
    # Category 1:1616
    # Category 2:9783
    # Category 3:10382
    # Category 4:74247
    @ID:chr1A:4210110-4210858
    @LN:748
    77  1   4 #位置  reads数  分类
    78  1   4
    621 1   4
    626 1   4
    634 2   1
    649 2   1
    698 1   4
    
    #out2.txt存放的是小RNA序列与转录本序列(位置)的对应关系,以及一些指标
    #test2_plot文件夹存放的是图,out2.txt有多少个记录,就有多少个图,如下
    

    4. 软件介绍

    CleaveLand定义了几个分类,下面来看一下
    Modes(模式):

    1. Align degradome data, align small RNA queries, and analyze. #就是我上面例子的模式,直接输入三个初始文件
      REQUIRED OPTIONS: -e, -u, -n
      DISALLOWED OPTIONS: -d, -g
    2. Use existing degradome density file, align small RNA queries, and analyze. #-d:比如我上面例子得到的degradome.clean.fa.gz_dd.txt文件
      REQUIRED OPTIONS: -d, -u, -n
      DISALLOWED OPTIONS: -e, -g
    3. Align degradome data, use existing small RNA query alignments, and analyze. #-g表示小RNA与转录本的比对记录
      REQUIRED OPTIONS: -e, -n, -g
      DISALLOWED OPTIONS: -d, -u
      IRRELEVANT OPTIONS: -a, -r
    4. Use existing degradome density file and existing small RNA query alignments, and analyze.
      REQUIRED OPTIONS: -d, -g
      DISALLOWED OPTIONS: -e, -u
      IRRELEVANT OPTIONS: -a, -r
    

    Categories:

    Category 4: Just one read at that position
    Category 3: >1 read, but below or equal to the average* depth of coverage on the transcript
    Category 2: >1 read, above the average* depth, but not the maximum on the transcript
    Cateogry 1: >1 read, equal to the maximum on the transcript, when there is >1 position at maximum value
    Cateogry 0: >1 read, equal to the maximum on the transcript, when there is just 1 position at the the maximum value
    

    5. 再举个栗子

    如果我们需要查询的小RNA有多个,该怎么处理呢?

    1. 将含有多个小RNA的文件拆成多个小RNA.fasta文件,依次运行模式1,也就是我上面的例子;
    2. 但是这样还不够简洁,因为降解组数据比对到转录本每次都是一样的,所以可以运行1次模式1,剩下n-1都运行模式2

    比如我有10个小RNA

            for i in {1..10}
            do
                    if [ "${i}" -eq 1 ]; then
                            mkdir ${path6}${sample}/${i}
                            cd ${path6}${sample}/${i}
                            ${path1}perl ${path2}CleaveLand4.pl -e ${path3}degradome.clean.fa.gz \
                            -u ${path4}num${i}_miRNA.fasta -n ${path5}${sample}.xxx.fasta \
                            -p 0.05 -c 2 -t -o ./plot${i} > out${i}.txt
                    fi
                    if [ "${i}" -gt 1 ]; then
                            mkdir ${path6}${sample}/${i}
                            cd ${path6}${sample}/${i}
                            ${path1}perl ${path2}CleaveLand4.pl -d ${path3}degradome.clean.fa.gz_dd.txt \
                            -u ${path4}num${i}_miRNA.fasta -n ${path5}${sample}.xxx.fasta \
                            -p 0.05 -c 2 -t -o ./plot${i} > out${i}.txt
                    fi
            done
    

    相关文章

      网友评论

        本文标题:small RNA学习(八):降解组分析

        本文链接:https://www.haomeiwen.com/subject/gppuuqtx.html