SplAdder
01 软件介绍
用于检测和定量RNA-Seq数据中可变剪接事件的工具;简而言之,该软件以标准格式获取给定的批注和RNA-Seq读取比对,将批注转换为可变剪切图表示形式,使用从读取的数据中提取的其他信息来增强可变剪切图,从图上提取可变剪接事件并量化基于对齐数据的事件。然后可以将量化的事件用于差异分析。
可变剪切(alternative splicing,AS)是指转录形成的前体RNA通过去除内含子、保留外显子形成mature RNA的过程,从而实现一个基因同时编码多种蛋白质,实现生物功能多样性。
安装
1)通过安装pip :pip install spladder
2)从源安装:克隆此存储库 在SplAdder根目录中,运行make install
image
02 默认参数
至少需要三个参数:注释文件、比对文件、输出文件
spladder build -o output_directory -b bam_file -a annotation_file
默认配置运行 SplAdder,包括以下步骤:
1)将注解转化为可变剪切图表示
2)通过推断和添加以下元素,为每个比对文件生成一个增强可变剪切图:
插入内含子保留
插入盒式外显子
插入新的内含子边缘
3)将增广可变剪切图合并为一个普通可变剪切图
4)提取以下可选拼接事件:
外显子跳跃;
内含子保留;
替代 3'/5' 剪接位点;
多外显子跳过;
互斥外显子。
5)量化每个提供的比对文件上的所有可变剪切剪接事件
03 运行模式
(1)build 模式:用于从 RNA-Seq 数据构建可变剪切图并提取可变剪切事件。
build 模式是 SplAdder 中的基本运行模式,用于构建可变剪切图和提取可选拼接事件。任何 SplAdder 管道的第一步都包含以下几个主要阶段:
① 图构建
解析给定的注释文件并将一个基因的所有转录本汇总成一个可变剪切图。此阶段在任何其他阶段之前隐式运行。但是,他在后台做的是转换给定的注释文件
spladder build .. --annotation annotation.gtf ...
② 图增强
增强阶段将比对文件和可变剪切图结合在一起,根据选择的置信水平,该图将具有更高或更低的密度。
使用:
spladder build --bams alignment.bam \
参数说明:
--bams :比对文件,可以使用逗号分隔的符号提供多个比对文件,或提供文本文件;支持CRAM 压缩比对文件
--annotation :注释文件
--outdir :输出文件夹
③ 图量化
输入比对文件进行量化图中的所有节点和边。量化值来量化剪接事件并计算剪接百分比 (PSI) 值。如果要提取可变剪切拼接事件(下一步),则该步骤将自动执行。如果用户决定不提取可变剪切拼接事件,可以直接对图形进行量化。可以通过以下方式进行量化
spladder build ... --quantify-graph ...
④ 事件检测
build模式的最后阶段,图形用于提取可变剪切拼接事件。默认情况下执行事件提取。如选择完全省略此步骤:
spladder build ... --no-extract-ase ...
SplAdder 可以提取 6 种不同类型的选择性剪接事件:
外显子跳跃、
内含子保留、
替代 3' 剪接位点、
替代 5' 剪接位点、
互斥外显子和多个(协同)外显子跳跃。
(2)test 模式:用于样品间的差异分析。
前提:所有参与测试的样本都已在该build模式下进行联合分析
调用test模式:
输入:两个比对文件,分别代表条件 A 和 B 的样本
spladder test --conditionA aligmmentA1.bam,alignmentA2.bam \
其他参数:
--event-types:测试特定是事件类型
--confidence:置信度
--no-cap-exp-outliers:保留异常表达的基因,默认删除表达异常值
--cap-outliers:开启拼接异常值的封顶
--label :分配标签(例如:--labelA XX --labelB XX 给A组和 B 组分配任意标签)
--diagnose-plots:生成多个汇总图
--plot-format:图片格式,默认为png
--parallel:线程数
(3)viz 模式:用于可变剪切图和替代事件的可视化。
生成可变剪切图和事件的可视化,可以是单独的轨道,也可以堆叠起来以联合可视化多个信息源。
Data tracks(轨道数据)
一般语法:
spladder viz --track TYPE [TYPE_INFO [TYPE_INFO ...] ]
例如:
转录本显示了每个给定基因的所有注释转录本的结构
spladder viz --track transcript gene1 #绘制转录本 ID 为gene1 的基因的可变剪切图
Order of multiple tracks(多轨道顺序)。轨道的顺序由它们在命令行中提供的顺序决定。
示例:
spladder viz --range gene gene1 \
该图将有五个轨迹:覆盖范围、片段、事件(任意)、可变剪切图、事件(仅外显子跳跃)。这意味着,如果需要,即使是相同的轨道也可以绘制多次。
image注意:
所有这些模式都将在同一个输出目录上运行。
build模式始终必须在testing和viz模式之前,因为这会创建后一种模式操作的可变剪切图结构。
image
04 处理大型数据集
该过程可以分为四个后续的逻辑步骤:
1.单图:为每个输入样本创建一个单独的可变剪切图
2.合并图:将所有单独的图合并为一个联合图表示
3.量化:量化每个单独输入样本的联合图中的边和节点
4.事件调用:在联合量化图上调用事件(可选地执行测试)。
网友评论