SigProfiler 提供一套全面、集成的生物信息学工具,用于执行突变特征分析。该软件涵盖了从生成突变矩阵到特征提取的整个分析生命周期,以及绘图和模拟支持功能。
1. SigProfilerExtractor
SigProfilerExtractor 允许从以矩阵格式生成的数据中从头提取突变特征。该工具可识别有效突变特征的数量、它们在每个样本中的活动以及每个特征在癌症样本中引起特定突变类型的概率。
1.1 安装并下载参考基因组
# 安装
$ pip install SigProfilerExtractor
# 从命令行/终端安装所需参考基因组(可用的参考基因组为:GRCh37、GRCh38、mm9 和 mm10):
$ python
>>> from SigProfilerMatrixGenerator import install as genInstall
>>> genInstall.install('GRCh38')
1.2 运行SigProfilerExtractor
# 安装和导入必要的包
$ pip install SigProfilerExtractor
# 提取突变特征
from SigProfilerExtractor import sigpro as sig
# 输入文件类型和路径
input_type = "vcf"
input_data = "/data/shumin/WES/Somatic/CC56organoid/Mutect2"
# 输出目录
output_dir = "/data/shumin/WES/Somatic/CC56organoid/results"
# 参考基因组
reference_genome = "GRCh38"
# 运行 SigProfilerExtractor
sig.sigProfilerExtractor(input_type, output_dir, input_data, reference_genome=reference_genome)
SigProfiler-1
ꔷ 也可以使用突变矩阵作为输入
2. SigProfilerMatrixGenerator
SigProfilerMatrixGenerator 用于为体细胞突变创建突变矩阵。该工具用于根据可能的单核苷酸变异 (SNV)、双碱基替换 (DBS) 和插入/缺失来识别和分类突变,并提供进一步的转录链偏向分类。它将生成的突变缩小到基因组的部分,如外显子组或自定义BED 文件,以帮助识别基因组中真正的突变特征。
2.1 安装并下载参考基因组
# 安装
pip install SigProfilerMatrixGenerator
$ python
>> from SigProfilerMatrixGenerator import install as genInstall
>> genInstall.install('GRCh37', rsync=False, bash=True)
2.2 运行SigProfilerMatrixGenerator
>> from SigProfilerMatrixGenerator.scripts import SigProfilerMatrixGeneratorFunc as matGen
>> matGen.SigProfilerMatrixGeneratorFunc("CC56tissueA", "GRCh38", "/data/shumin/WES/Somatic/CC56tissueA/Mutect2/", plot = False)
3. SigProfilerPlotting
3.1 plotSBS - 绘制单碱基替换 (SBS)
sigPlt.plotSBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/SBS/" + "CC56tissueA.SBS6.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotSBS/", "CC56tissueA.SBS6", "6", percentage=False)
sigPlt.plotSBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/SBS/" + "CC56tissueA.SBS24.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotSBS/", "CC56tissueA.SBS24", "24", percentage=False)
sigPlt.plotSBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/SBS/" + "CC56tissueA.SBS1536.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotSBS/", "CC56tissueA.SBS1536", "1536", percentage=False)
sigPlt.plotSBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/SBS/" + "CC56tissueA.SBS384.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotSBS/", "CC56tissueA.SBS384", "384", percentage=False)
ꔷ 单碱基替换-6 (SBS-6) 数值图:在 y 轴上显示六种不同的突变类别,在 x 轴上显示每种突变的数量。
ꔷ 单碱基替换-24 (SBS-24) 数值图:在 y 轴上包括六种不同的突变类别,在 x 轴上包括转录和未转录链上发生的突变数。
ꔷ 单碱基替换-1536 (SBS-1536) 数值图:绘制了每个突变的三核苷酸背景。x 轴顶部是代表不同突变的六个主要类别(C>A、C>G、...、T>G)。这些类别的正下方是一组条形图,其中显示了每个突变的数量。此外,条形图下方是五核苷酸背景的热图。
ꔷ 单碱基替换-384 (SBS-384) 数值图:绘制了每个突变的三核苷酸背景。x 轴是代表不同突变的六个主要类别(C>A、C>G、...、T>G)。这六个类别中的每一个都有另外 16 个类别来表示可以作为突变前缀和后缀的碱基组合(即 ACA、ACC、ACG、ACT、CCA、...、TCT)。此外,突变的分类取决于它位于转录链还是未转录链上。y 轴是发生的此类突变的数量
3.2 plotID 函数 - 绘制小插入和删除 (indel)
sigPlt.plotID("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/ID/" + "CC56tissueA.ID28.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotID/", "CC56tissueA.ID28", "28", percentage=False)
sigPlt.plotID("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/ID/" + "CC56tissueA.ID83.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotID/", "CC56tissueA.ID83", "83", percentage=False)
sigPlt.plotID("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/ID/" + "CC56tissueA.ID415.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotID/", "CC56tissueA.ID415", "415", percentage=False)
ꔷ 插入缺失- 简单 (ID-28 / ID-Simple) 图: 显示相对于嘧啶上下文的单碱基对插入和缺失。x 轴表示给定插入缺失(均聚物长度)的重复碱基数。y 轴表示给定类别发生的突变数。图的最右侧是大于一个碱基对的大量缺失、插入和微同源性的列。还有一列复杂的插入缺失,表示在基因组的同一区域删除碱基和插入碱基的事件
ꔷ 插入缺失-83 (ID-83) 图: 统计发生在单个碱基对和长度超过一个碱基对的序列中的小插入和缺失的数量。该图还显示微同源性,即在删除序列子串附近发生的缺失。
ꔷ 插入缺失-415 (ID415) 图:统计发生在单个碱基对和长度超过一个碱基对的序列中的小插入和缺失的数量。该图还显示微同源性,即在删除序列的子串附近发生的缺失。该图显示发生在蛋白质编码区内转录或未转录链上的突变(双向、非转录和无法分类的插入缺失未绘制)。
3.3 plotDBS 函数 - 绘制二核苷酸 (DBS)
sigPlt.plotDBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/DBS/" + "CC56tissueA.DBS78.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotDBS/", "CC56tissueA.DBS78", "78", percentage=False)
sigPlt.plotDBS("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/DBS/" + "CC56tissueA.DBS186.all", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/plotDBS/", "CC56tissueA.DBS186", "186", percentage=False)
ꔷ 双碱基替换-78 (DBS-78) 图:计算双碱基突变的数量。DBS 类别列于图的顶部,每个突变的数量沿 y 轴表示。使用突变的最大嘧啶背景确定 78 个突变通道。
ꔷ 双碱基替换-186 (DBS-186) 图:计算蛋白质编码区内转录或未转录链上发生的双碱基突变数。只有包含所有嘧啶或所有嘌呤的双碱基替换才可以按此方式分类。DBS 类别列于图的顶部,每个突变的数量沿 y 轴表示。
3.4 samplePortrait 函数 - 绘制包含不同替换、插入/缺失和二核苷酸图
sP.samplePortrait("/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/", "/data/shumin/WES/Somatic/CC56tissueA/SigProfiler_output/SigProfilerMatrixGenerator/output/", "CC56tissueA", percentage=False)
ꔷ 此图表集合包括上述每个函数产生的变异
SigProfiler-24. SigProfilerAssignment
SigProfilerAssignment 可以将先前已知的突变特征分配给单个样本和单个体细胞突变。该工具可重新拟合不同类型的参考突变特征,包括COSMIC 特征以及自定义特征数据库。重新拟合已知突变特征是一种数值优化方法,它不仅可以识别特定样本中的一组有效突变特征,还可以量化分配给该样本中每个特征的突变数量。
from SigProfilerAssignment import Analyzer as Analyze
Analyze.cosmic_fit(samples="/data/shumin/WES/Somatic/CC56bloodA/SigProfiler_output/SigProfilerMatrixGenerator/output/SBS/CC56bloodA.SBS6.all",
output="/data/shumin/WES/Somatic/CC56bloodA/SigProfiler_output/SigProfilerAssignment/SBS6/",
input_type="matrix",
genome_build="GRCh38",
context_type="6",
collapse_to_SBS96=False)
SigProfiler-3
输出结果一般包括:
ꔷ Activities: 包含每个样本中不同 COSMIC 突变特征的活跃度。
ꔷ Decomposition: 包含每个样本中突变特征的分解结果。
ꔷ Signatures: 包含与样本匹配的 COSMIC 突变特征。
网友评论