美文网首页转录组分析
转录组----可变剪接分析-rMATs

转录组----可变剪接分析-rMATs

作者: 千万别加香菜 | 来源:发表于2022-11-08 10:29 被阅读0次

    ●可变剪切(differential splicing)也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质
    https://zhuanlan.zhihu.com/p/409865441

    rMATs软件可以识别5种可变剪接事件:Skippedexon (SE) 外显子跳跃、Alternative5’ splice site (A5SS) 5’端可变剪切、Alternative3’ splice site (A3SS) 3’端可变剪切、Mutuallyexclusive exons (MXE) 互斥可变外显子、Retainedintron (RI) 内含子保留 5种rMATs识别的可变剪接事件.png

    1、安装

    可以用conda直接安装
    conda install -c bioconda rmats
    

    2、使用

    1)、计算可变剪接事件
    rmats.py --b1 b1.txt \
             --b2 b2.txt \
             --gtf /home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf \
             --od AS \
             --tmp tmp \
             -t paired \
             --readLength 150 \
             --cstat 0.0001 \
             --nthread 10
    
    --b1 b1.txt 输入sample1的txt格式的文件,文件内以逗号分隔重复样本的bam文件名
    --b2 b2.txt 输入sample2的txt格式的文件,文件内以逗号分隔重复样本的bam文件名
    -t readType 双端测序则readType为paired,单端测序则为single
    --readLength 测序reads的长度,可以从质控报告看
    --gtf gtfFile 需要输入的gtf文件
    --od outDir 所有输出文件的路径(文件夹)
    --nthread 设置线程数
    --cstat The cutoff splicing difference. The cutoff used in the null hypothesis test for differential splicing
    --statoff,进行单样本或者是单组的分析,并跳过统计分析
    
    2)可视化
    1 整体可视化
    rmats2sashimiplot --b1 SRR17709921_sort.bam,SRR17709920_sort.bam,SRR17709917_sort.bam \
                      --b2 SRR17709910_sort.bam,SRR17709918_sort.bam,SRR17709919_sort.bam \
                      -t SE \
                      -e SE.MATS.JC.txt \
                      --l1 DP_L \
                      --l2 Han_L \
                      -o SE_plot &
    
    可以将需要可视化的基因进行筛选,重新做成SE.MATS.JC.txt这种文件,然后可视化就可以了
    rmats2sashimiplot --b1 SRR17709911_sort.bam,SRR17709912_sort.bam,SRR17709913_sort.bam \
                      --b2 SRR17709916_sort.bam,SRR17709915_sort.bam,SRR17709914_sort.bam \
                      -t SE \
                      -e SE.MATS.JC.txt \
                      --l1 DP_M \
                      --l2 Han_M \
                      -o M_SE_plot
    
    --b1 B1 sample_1 in bam format(s1_rep1.bam[,s1_rep2.bam])
    --b2 B2 sample_2 in bam format(s2_rep1.bam[,s2_rep2.bam])
    -t  rMATS结果中产生的可变剪切类型{SE,A5SS,A3SS,MXE,RI}
    -e  EVENTS_FILE The rMATS output event file (Onlyif using rMATSformat result as event file).
    --l1 L1 The label for first sample.
    --l2 L2 The label for second sample.-o OUT_DIR The output directory.
    
    2 基因坐标输入时
    报错了
    
    Gene: FGF1 in muscle
    rmats2sashimiplot --b1 SRR17709911_sort.bam,SRR17709912_sort.bam,SRR17709913_sort.bam \
                      --b2 SRR17709910_sort.bam,SRR17709918_sort.bam,SRR17709919_sort.bam \
                      -c chrNC_040256.1:-:55979601:56069122:/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf \
                      --l1 DP_M \
                      --l2 Han_M -o ./plot
    
    --b1 B1 sample_1 in bam format(s1_rep1.bam[,s1_rep2.bam])
    --b2 B2 sample_2 in bam format(s2_rep1.bam[,s2_rep2.bam])
    -t  rMATS结果中产生的可变剪切类型{SE,A5SS,A3SS,MXE,RI}
    -e  EVENTS_FILE The rMATS output event file (Onlyif using rMATSformat result as event file).
    --l1 L1 The label for first sample.
    --l2 L2 The label for second sample.-o OUT_DIR The output directory.
    

    3、结果展示

    rMATs.png
    会输出好几种文件,其中.MATS.JC.txt是我们要用到的文件

    以MXE.MATS.JC.txt为例说明每列的意义,引自CSDN博主「次亚硫酸钠」的原创文章https://blog.csdn.net/weixin_42910678/article/details/123587203

    ID  GeneID  geneSymbol  chr strand  1stExonStart_0base  1stExonEnd  2ndExonStart_0base  2ndExonEnd  upstreamES  upstreamEE  downstreamES    downstreamEE    ID  IJC_SAMPLE_1    SJC_SAMPLE_1    IJC_SAMPLE_2    SJC_SAMPLE_2    IncFormLen  SkipFormLen PValue  FDR IncLevel1   IncLevel2   IncLevelDifference
    0   "MS.gene23798"  NA  chr8.4  -   30758609    30758704    30759122    30759182    30758025    30758095    30760455    30760527    0   1   11  7   9   209 244 0.0120878457309 0.0604392286545 0.096   0.476   -0.38
    1   "MS.gene61989"  NA  chr7.2  -   80697619    80697769    80704270    80704420    80697113    80697232    80705567    80706851    1   1   1   0   3   298 298 0.102057409464  0.34019136488   0.5 0.0 0.5
    

    ●ID: 官网描述“rMATS event id”,其实就是序号
    ●GenelD: 可变剪接事件所在基因编号
    ●geneSymbol: 可变剪接事件所在基因名称
    ●chr: 可变剪接事件所在染色体
    ●strand: 可变剪接事件所在染色体链的方向
    ●1stExonStart_0base: 第一个可变剪接事件跳跃外显子的起始位置,以0开始计数
    ●1stExonEnd: 第一个可变剪接事件跳跃外显子的终止位置
    ●2ndExonStart_0base:第二个可变剪接事件跳跃外显子的起始位置,以0开始计数
    ●2ndExonEnd: 第二个可变剪接事件跳跃外显子的终止位置
    ●upstreamES: 可变剪接事件跳跃外显子的上游exon起始位置
    ●upstreamEE: 可变剪接事件跳跃外显子的上游exon终止位置
    ●downstreamES: 可变剪接事件跳跃外显子的下游exon起始位置
    ●downstreamEE: 可变剪接事件跳跃外显子的下游exon终止位置
    ●ID: 同上
    ●IJC_SAMPLE_1: 样本一在inclusion junction(IJC)下的count数,重复样本的结果以逗号分隔
    ●SJC_SAMPLE_1: 样本一在skipping junction(SJC)下的count数,重复样本的结果以逗号分隔
    ●IJC_SAMPLE_2: 样本二在inclusion junction(IJC)下的count数,重复样本的结果以逗号分隔
    ●SJC_SAMPLE_2: 样本二在skipping junction(SJC)下的count数,重复样本的结果以逗号分隔
    ●IncFormLen: 可变剪接事件Exon Inclusion Isoform的有效长度
    ●SkipFormLen: 可变剪接事件Exon Skipping Isoform的有效长度
    PValue: 两组样本间可变剪接事件表达差异显著性p值
    FDR: 可变剪接事件表达差异显著性FDR值
    IncLevel1: 处理组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值,也就是PSI
    IncLevel2: 对照组可变剪接事件Exon Inclusion Isoform在两个Isoform总表达量的比值,也就是PSI
    IncLevelDifference: IncLevel1与IncLevel2的差值,和dPSI(different percent spliced in)差不多

    image.png

    相关文章

      网友评论

        本文标题:转录组----可变剪接分析-rMATs

        本文链接:https://www.haomeiwen.com/subject/mutntdtx.html