一、可变剪切的意义和重要性
可变剪切(differential splicing)也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质,示意图如下
可变剪切在真核生物体内广泛存在,有研究指出,对于人类基因组中包含多个exon的基因而言,其中有95%的基因都存在可变剪切现象。可变剪切导致了转录本和蛋白质结构与功能的多态性,是一种重要的转录调控机制。
在不同组织或者发育的不同阶段,可变剪切不是一成不变的,在特定的组织或者条件下,会产生特定的剪切异构体isofrom, 这说明不同异构体具有特定的时间与空间作用,从而将可变剪切与正常的生命活动和疾病相关联,有大量的研究发现,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切在不同组织中的研究是非常有意义的。
二、可变剪切的类型:
可变剪切的形式复杂多样,对于可变剪切的预测一般采用StringTie对Hisat2的比对结果进行拼接,通过ASprofile软件获取每个样品存在的可变剪接类型及相应表达量。基因可变剪接类型如下图所示:
基因可变剪接类型
ASprofile软件将可变剪接类型细分为12类,分别为:
(1) TSS: Alternative 5' first exon (transcription start site) 第一个外显子可变剪切;
(2) TTS: Alternative 3' last exon (transcription terminal site) 最后一个外显子可变剪切;
(3) SKIP: Skipped exon(SKIP_ON,SKIP_OFF pair) 单外显子跳跃;
(4) XSKIP: Approximate SKIP (XSKIP_ON,XSKIP_OFF pair) 单外显子跳跃(模糊边界);
(5) MSKIP: Multi-exon SKIP (MSKIP_ON,MSKIP_OFF pair) 多外显子跳跃;
(6) XMSKIP: Approximate MSKIP (XMSKIP_ON,XMSKIP_OFF pair) 多外显子跳跃(模糊边界);
(7) IR: Intron retention (IR_ON, IR_OFF pair) 单内含子滞留;
(8) XIR: Approximate IR (XIR_ON,XIR_OFF pair) 单内含子滞留(模糊边界);
(9) MIR: Multi-IR (MIR_ON, MIR_OFF pair) 多内含子滞留 ;
(10) XMIR: Approximate MIR (XMIR_ON, XMIR_OFF pair) 多内含子滞留(模糊边界);
(11) AE: Alternative exon ends (5', 3', or both) 可变 5'或3'端剪切;
(12) XAE: Approximate AE 可变 5'或3'端剪切(模糊边界)。
四、ASProfile分析工具简介
1. 安装:
ASprofile是一款识别可变剪切事件的软件,该软件可以直接将同一个基因的多个转录本进行比较,从而鉴定可变剪切事件,官网如下
https://ccb.jhu.edu/software/ASprofile/index.shtml
该软件安装比较简单,下载解压缩即可。
2. 基本用法如下
extract-as transcript.gtf ref.fa.hdrs > as_events.txt
该脚本需要两个参数,第一个参数为转录本对应的gtf文件,在实际分析时,首先利用cufflinks或者stringTie从测序数据中组装到转录本序列,然后将组装的转录本与已知的转录本合并去冗余,用merge之后的非冗余转录本序列作为输入;第二个参数为基因组长度统计文件,后缀为hdrs, 内容如下
>chr1 /len=249250621 /nonNlen=225280621 /org=Homo_Sapiens(hg19)
>chr2 /len=243199373 /nonNlen=238204518 /org=Homo_Sapiens(hg19)
>chr3 /len=198022430 /nonNlen=194797135 /org=Homo_Sapiens(hg19)
上述文件中可变剪切事件是以转录本为单位进行展示的,每行代表一个转录本,存在冗余,当我们想要知道某个基因上发生的可变剪切的类型和数量时,该文件就不够直观,官方提供了summarize_as.pl
脚本,可以方便的得到非冗余的可变剪切事件以及每个基因可变剪切事件的汇总信息,用法如下:
perl summarize_as.pl transcript.gtf as.events.txt -p prefix
该脚本会生成两个文件,后缀为nr
的文件中,是非冗余的可变剪切事件;后缀为summary
的文件中是每个基因可变剪切的类型统计,示意如下
通过
Asprofile
, 可以直接对同一个基因的多个转录本进行比较,从而鉴别不同的可变剪切事件,除此之外,Asprofile
还提供了定量的功能, 可以计算fpkm
值,通过collect_fpkm.pl
脚本可以汇总多个样本的可变剪切结果,用法如下
perl collect_fpkm.pl sampleA.AS,sampleB.AS -s txt
多个样本用逗号连接,-s指定对应文件的后缀,通过样本名字加后缀识别对应的文件。该脚本会给出每个可变剪切事件在样本中的比例,基于这个比例我们可以进行差异分析。更多用法请参考官方说明和脚本的帮助文档。
参考:
https://www.jianshu.com/p/759a5a714aa3
https://www.jianshu.com/p/d09281bf5ce1
网友评论