DNA 10. 识别癌症驱动基因 (OncodriveCLUST

作者: 桓峰基因 | 来源:发表于2022-06-26 21:13 被阅读0次

DNA 10. 识别癌症驱动基因 (OncodriveCLUST
2022-06-10
识别癌症甲基化驱动基因
盛景基因：一文带你读懂肿瘤靶向治疗与基因检测
诱发癌症的凶手“omikli超突变”，比强致癌物更可怕
2022-07-14
2022-09-02
基因检测和精准医疗的应用
突变癌症驱动基因概要
2022-06-27

桓峰基因

生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 124篇原创内容 --> 公众号

OncodriveCLUST 利用体细胞突变的位置聚类来识别癌症基因

摘要

研究动机：功能获得突变通常聚集在特定的蛋白质区域，这表明这些突变为癌细胞提供了适应性优势，因此在肿瘤的克隆进化过程中被积极选择。我们试图确定该特征在癌症中的总体程度，以及使用该特征识别司机的可能性。

结果：我们开发了OncodriveCLUST，一种识别蛋白质序列中具有显著突变聚类倾向的基因的方法。该方法通过评估编码沉默突变来构建背景模型，这些突变被认为不是正选择，因此可以反映体细胞突变聚类的基线趋势。OncodriveCLUST对《癌症体细胞突变目录》的分析检索了癌症基因普查丰富的基因列表，优先考虑了那些具有显性表型的基因，但也突出了一些隐性癌症基因，这些基因显示出更广泛但仍有限制的突变集群。对癌症基因组图谱数据集的评估表明，OncodriveCLUST选择了基于频率和功能影响标准的方法所遗漏的癌症基因。这强调了结合基于互补原则的方法来识别驱动突变的好处。我们建议OncodriveCLUST作为实现这一目的的有效工具。

执行的步骤的示意图表示OncodriveCLUST评估两个虚拟基因的突变聚类主要步骤分为5步：

(I) 输入数据以影响蛋白质的基因突变直方图表示，x轴为蛋白质序列位置，y轴为该位置发生的基因突变的百分比。

(II) 有意义的位置被选择为那些具有大量突变且不被偶然预期的位置。这是根据二项累积分布函数对每个基因的长度和突变数量进行计算的，根据我们的突变非均匀分布假设，这是一个松散的标准(默认51%的概率将某个位置表示为有意义的)。在本图中，作为有意义阈值的每个基因计算的最小突变数由标记为Th的虚线表示。(III) 对步骤(II)中发现的有意义的位置进行分组，形成突变簇(在展示的面板中灰色阴影部分)。如果两个连续的位置之间的默认最大距离为5个氨基酸，则它们被分组在同一簇中。这被认为是一个严格的分界点，以定义不同残基上的两个突变影响相同的致瘤机制，因为事实强调，大多数(95%)编码沉默突变，假设是随机分布的，在COSMIC数据集被较大的距离分开。注意，如果在整个蛋白质序列中没有发现有意义的位置，则认为该基因没有突变簇，因此不进行进一步的分析。在本例中，基因A有一个有意义的位置，因此它形成一个单簇;在B基因中，有6个有意义的位置，它们被组合成两个单独的簇。

(IV) 没有发生在(II)中有意义的位置，但在(III)中定义的集群边界内或与其相邻的突变也应计入该集群所包含的突变数量的最终数字。

(V) 之后，对每个聚类进行评分。这个分数如图1所示。继续与封闭突变的数量成正比，与簇长度成反比(参见方法部分了解更多关于聚类分数计算的细节)。每个基因的最终值是通过将该基因中发现的每个聚类的得分相加得到的(基因A为C1，基因B为C1 + C2)。

(VI) 最后，为了估计(V)中每个基因得分的显著性，将其与背景模型的分布进行比较。背景模型是通过计算所有数据集基因的聚类分数，然后分析编码沉默突变得到的。注意，这种比较可以在背景模型的正态分布得到验证后获得一个标准分数(即Z分数)，然后得到一个校正后的P值。其实图示如下：

从对COSMIC的OncodriveCLUST分析中选择top基因，如下：

软件安装

OncodriveCLUSTL依赖于Python 3.5和一些外部库。我们建议使用Anaconda Python发行版来安装：

$ conda install -c bbglab oncodriveclustl

OncodriveCLUSTL也可以使用pip来安装：

$ pip install oncodriveclustl

也可以从存储库获取最新的代码，并使用pip安装。这里出现一个bug，大家可以参考，就是git clone时出现如下bug：

git clone git@bitbucket.org:bbglab/oncodriveclustl.gitCloning into 'oncodriveclustl'...git@bitbucket.org: Permission denied (publickey).fatal: Could not read from remote repository.

问题原因：

permission denie（publickey）翻译过来就是公匙不对导致不能下载，我们知道通过ssh的方式去下载的话，是需要持有私匙和公匙，才能正常下载。

这个地方提示的就是ssh key缺失的问题，那么有的小伙伴可能疑惑说，我明明配置了，为什么不能使用，其实我刚开始也是这么想的，但是忽略了一个问题，我要下载的包在github，而项目是存放在gitlab上的，这两个是不通用的。在登录github上进行配置一下即可。

解决方案：

1、生成ssh key

在我们的 Git Bash here 打开的控制台上面进行命令操作：

先输入ssh-keygen -t rsa -C "你的github账号"

然后选择保存key的位置，基本就是默认C:/Users/admin/.ssh 目录下面的id_rsa文件（如果已经存在这个文件的话，可以选择其他位置）

输入你的passphrase，这个应该可以理解为密码，正常我这边是直接回车，就是没有密码

重新确认一下passphrase

然后会生成你的rsa文件。

2、复制ssh key

3、登录github

4、new ssh key

没有此类问题的可以直接运行下面安装软件：

$ git clone git@bitbucket.org:bbglab/oncodriveclustl.git$ cd oncodriveclustl$ conda install -c anaconda pycurl$ pip install .

当你第一次使用给定的参考基因组运行OncodriveCLUSTL时，将从他们的服务器下载。默认情况下，下载的数据集位于~/.bgdata。如果希望将这些数据集移动到另一个文件夹，则必须使用导出命令定义系统环境变量BGDATA_LOCAL：

$ oncodriveclustl --help

官网提供了测试数据集，下载方式如下：

$ curl -o oncodriveclust.tar.gz https://bitbucket.org/bbglab/oncodriveclust/get/0.3.tar.gz#或者wget -c  oncodriveclust.tar.gz https://bitbucket.org/bbglab/oncodriveclust/get/0.3.tar.gz$ tar -xvf oncodriveclust.tar.gz$ cd bbglab-oncodriveclust-60e75d0cb432###文件还有的文件$ lsagpl-3.0.txtdata/distribute_setup.pyexamples/.gitignorelogo.pngoncodriveclust/README.mdsetup.py###exmplestcga.BRCA.nonsyn.txttcga.BRCA.syn.txt$ less tcga.BRCA.nonsyn.txtsymbol  gene    transcript      Sample  ct      positionSCYL3   ENSG00000000457 ENST00000367772 tcga_Breast_invasive_carcinoma_TCGA-AR-A0U4-01A-11D-A117-09     non-synonymous  136SCYL3   ENSG00000000457 ENST00000367772 tcga_Breast_invasive_carcinoma_TCGA-C8-A12U-01A-11D-A10Y-09     non-synonymous  571    $ less tcga.BRCA.syn.txtCFH     ENSG00000000971 ENST00000367429 tcga_Breast_invasive_carcinoma_TCGA-AO-A0J2-01A-11W-A050-09     synonymous      498CFH     ENSG00000000971 ENST00000367429 tcga_Breast_invasive_carcinoma_TCGA-BH-A0HA-01A-11D-A12Q-09     synonymous      706LAS1L   ENSG00000001497 ENST00000374811 tcga_Breast_invasive_carcinoma_TCGA-B6-A0I8-01A-11W-A050-09     synonymous      701SEMA3F  ENSG00000001617 ENST00000002829 tcga_Breast_invasive_carcinoma_TCGA-AR-A1AY-01A-21D-A12Q-09     synonymous      87###data$ lsCGC_phenotype.tsvgene_transcripts.tsv$ less CGC_phenotype.tsvSymbol  Cancer Molecular GeneticsABL1    DomABL2    DomACSL3   DomAF15Q14 DomAF1Q    Dom$ less gene_transcripts.tsvSymbol  Ensembl Transcript ID   CDS LengthMADD    ENST00000311027 4944MAST2   ENST00000361297 5397ZNF32   ENST00000374433 822LDB2    ENST00000304523 1122HIST1H1E        ENST00000304218 660C9orf150        ENST00000319264 687

实例解析

数据读取

OncodriveCLUSTL只需要两个主要的输入，突变文件和注释文件及基因在CGC数据库中对应的注释信息。

1. 突变的文件

TSV文件包含映射到参考基因组(例如，人类hg19)的SNV。如果存在其他突变类型(插入、缺失、双碱基替换等)，则在分析过程中将其过滤掉。这个文件必须至少包含以下5个带标题的列。

CHROMOSOME: 1, 2,..., X, Y

POSITION: Integer indicating the position of the mutation

REF: Reference nucleotide

ALT: Alternate nucleotide

SAMPLE: Identifier of the sample

Additional columns are:

CANCER_TYPE: Type of tumor. When specified, OncodriveCLUSTL will calculate one mutational profile for each cancer type and mutations will be randomized accordingly.

SIGNATURE: User-defined group to compute k-mer nucleotide mutational probabilities. When specified, OncodriveCLUSTL will calculate one mutational profile for each group and will randomize each mutation accordingly.

对应exmaple文件夹里面的 tcga.BRCA.nonsyn.txt和tcga.BRCA.syn.txt

2. 注释文件

注释文件包括基因组元素坐标(GEs)的TSV文件。至少以下5列带标题:

CHROMOSOME: 1, 2,..., X, Y

START: Starting position of the genomic region

END: Final position of the genomic region

ELEMENT: Identifier of the GE

SYMBOL: Symbol of the GE. OncodriveCLUSTL will analyze GEs as SYMBOL + ELEMENT.

Additional columns are:

STRAND: Strand of the GE coordinates ("+" or "-").

对应data文件夹里面的gene_transcripts.tsv。该文件最重要的是第一列和最后一列，第一列表示基因，最后一列表示突变所在的蛋白质位置。

3. 基因在CGC数据库中对应的注释信息

--cgc参数指定的是基因在CGC数据库中对应的注释信息，是可选的，对应exmaple文件夹里面的CGC_phenotype.tsv

运行操作

运行十分简单，主要就是准备输入文件而已，实例运行：

oncodriveclust \-m 3 \--cgc \data/CGC_phenotype.tsv \examples/tcga.BRCA.nonsyn.txt \examples/tcga.BRCA.syn.txt \data/gene_transcripts.tsv

这是分析BRCA(乳腺癌)数据集，OncodriveCLUST输出将放置在使用-o参数指定的路径(如果没有指定，那么将使用当前目录)。注意，在对输入的分析中，我们使用了肿瘤队列中至少10个突变的任意值来将该基因纳入到COSMIC数据集的分析中，并在TCGA数据集的分析中使用了3图。这可以通过使用-m参数来定义。使用可选标志-c，突变集群的坐标将包含在输出文件中。

默认生成结果文件oncodriveclust-results.tsv，如下：

$ head oncodriveclust-results.tsvGENE    CGC GENE_LEN    GENE_NUM_MUTS   MUTS_IN_CLUST   NUM_CLUSTERS    GENE_SCORE  ZSCORE  PVALUE  QVALUEKRAS    Dom 190 3   3   1   1.0 4.17671455905   1.47874885544e-05   0.0005077037737KLRG2       410 3   3   1   1.0 4.17671455905   1.47874885544e-05   0.0005077037737KRT38       457 3   3   1   1.0 4.17671455905   1.47874885544e-05   0.0005077037737AKT1    Dom 481 12  11  1   0.916666666667  3.79776654893   7.30028674072e-05   0.00187982383574PIK3CA  Dom 1069    186 178 7   0.855624278036  3.52018384847   0.00021562388305    0.00444185199083VASN        674 5   4   1   0.8 3.26723933475   0.000543009128935   0.00932165671338KIF19       999 3   3   1   0.784521187523  3.1968513525    0.000694682523388   0.0100330867162ZNF598      905 4   3   1   0.75    3.03987052868   0.00118339934876    0.0100330867162FGFR2   Dom 823 4   3   1   0.75    3.03987052868   0.00118339934876    0.0100330867162c

最后根据pvalue和qvalue对结果进行筛选，挑选显著性的驱动基因既可以完成，若是需要进行完美的展示可以根据文章中的方式进行展示，如下：

有想进生信交流群的老师可以扫最后一个二维码加微信，备注“单位+姓名+目的”，有些想发广告的就免打扰吧，还得费力气把你踢出去！

References:

Dees N D, Zhang Q, Kandoth C, et al. MuSiC: identifying mutational significance in cancer genomes[J]. Genome research, 2012, 22(8): 1589-1598.

Tamborero D, Gonzalez-Perez A, Lopez-Bigas N. OncodriveCLUST: exploiting the positional clustering of somatic mutations to identify cancer genes[J]. Bioinformatics, 2013, 29(18): 2238-2244.

Mularoni, Loris, et al. "OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations." Genome biology 17.1 (2016): 128.

Arnedo-Pac C, et al. OncodriveCLUSTL: a sequence-based clustering method to identify cancer drivers. Bioinformatics. 2019;35(22):4788–4790.

本文使用文章同步助手同步

DNA 10. 识别癌症驱动基因 (OncodriveCLUST
桓峰基因 OncodriveCLUST 利用体细胞突变的位置聚类来识别癌症基因摘要研究动机：功能获得突变通常...
2022-06-10
Nat Genetics | 脑膜瘤DNA甲基化组识别驱动因素和治疗靶点原创图灵基因图灵基因2022-06-10...
识别癌症甲基化驱动基因
MethylMix: an R package for identifying DNA methylation-d...
盛景基因：一文带你读懂肿瘤靶向治疗与基因检测
盛景基因表示癌症从本质上来说是一种基因病，所有的癌症均源自驱动基因突变。人人体内都有原癌基因，还有抑癌基因。平时...
诱发癌症的凶手“omikli超突变”，比强致癌物更可怕
来源：生物探索癌症的发生来自细胞内DNA的变化，当基因突变更改细胞DNA的组合顺序时，就很可能诱发癌症。超突变也...
2022-07-14
Science | 小分子药物增加DNA损伤修复有望降低癌症，老年痴呆发病率原创图灵基因图灵基因2022-07-...
2022-09-02
eLife | 斑马鱼中发现预防癌症关键蛋白，与DNA损伤修复相关原创图灵基因图灵基因2022-09-02 09...
基因检测和精准医疗的应用
什么是基因检测？说白了就是遗传基因检测，DNA的检测，大家知道的或许就是亲子鉴定吧！还有各种慢性疾病，癌症等...
突变癌症驱动基因概要
# No.1 今天给大家分享的是西班牙巴塞罗那加泰罗尼亚研究Núria López-Bigas于2020年发表在N...
2022-06-27
NEJM | 循环肿瘤DNA可识别结肠癌的治疗反应原创图灵基因图灵基因2022-06-27 09:00发表于江苏...