基于DNA甲基化的分子亚型构建发5+分

作者: 科研菌 | 来源:发表于2020-05-15 02:25 被阅读0次

大家好，今天小编分享的是19年12月份发表在Aging (Albany NY)(IF：5.515)的一篇文章，“Molecular subtypes based on DNA methylation predict prognosis in colon adenocarcinoma patients”，文章作者基于TCGA-COAD队列甲基化数据对COAD进行分型，并根据亚型特异甲基化位点构建COAD的COX比例风险模型预测患者预后，快来学习一下吧!

Molecular subtypes based on DNA methylation predict prognosis in colon adenocarcinoma patients

基于DNA甲基化的分子亚型预测结肠癌患者预后

https://www.bilibili.com/video/BV1be411W77j

一. 文章背景

本文研究的疾病是结肠腺癌(Colon Adenocarcinoma，COAD)，分析的数据是TCGA-COAD队列的甲基化芯片数据，RNA-seq数据以及临床数据。作者想要通过对COAD组织甲基化芯片的分析，根据样本的甲基化水平将其区分为不同的分子亚型；并且基于COAD患者癌组织甲基化水平建立预后预测模型，以改善对COAD预后的评估。

二. 文章思路

三. 结果解析

1. 在训练集中识别与COAD患者预后相关的CpG位点

作者将下载的TCGA-COAD队列甲基化数据(27K，450K两种芯片)经过滤，质控处理后得到共424个COAD样本(癌组织样本，患者都有超过30天的随访数据)的22830个甲基化位点信息用于后续分析。以450K芯片中的样本为训练集。针对所有CpG位点进行单因素COX回归分析(变量还包括TMN分期，年龄，stage，性别)，得到864个显著影响COAD患者OS水平的CpG位点。之后对这864个CpG位点进行多因素COX回归分析(变量还包括TMN分期，年龄，stage)，识别出356个独立的与COAD患者预后相关的CpG位点。

2. 一致性聚类识别基于DNA甲基化的COAD分子亚型

以训练集样本356个潜在的COAD预后相关CpG位点数据为输入，用concensus clustering包进行一致性聚类。图1为确定聚类个数的筛选过程：

A：CDF图，为K取不同值时的累积分布函数图，用于判断K取何值时CDF到达一个近似最大值。考虑CDF下降坡度小的K值

B：Delta Area Plot，展示K和K-1相比，CDF曲线下面积的相对变化(除K=2外)。此处K=5之后，CDF面积仅小幅增长。

C：不同聚类数目下，聚类一致性得分平均值(红)和变异系数(蓝)的变化

图1.筛选一致性聚类的聚类数

为确保识别的COAD患者的分子亚型足够多，作者最后决定取K=7。

A：一致性矩阵热图，训练集中271名COAD患者被分为7种分子亚型

B：7种分子亚型对应样本的预后相关CpG位点信号值热图

图2. 一致性矩阵以及对应样本CpG位点信号值热图

3. 分析7种分子亚型的预后价值以及在临床特征上的差异

A：对7种分子亚型进行Kaplan-Meier生存分析，存在显著差异(p<0.05)。其中聚类3，4中患者的预后最好，而聚类7中患者的预后最差

B-E：用棘状图展示了7种分子亚型的患者在临床stage，TNM分期上的差异

F：箱线图展示了7种分子亚型的患者在年龄上的差异

图3.分析不同分子亚型在预后以及临床特征上的差异

4. 注释预后相关CpG位点并基因功能富集分析

对上文356个与预后相关的CpG位点进行基因组注释，共对应到了415个基因的启动子区域。

A：对415个基因进行功能富集分析，有18个显著富集的通路

B：作者用Cytoscape中的Enrichment Map插件去分析这18个通路的相关作用关系

C：训练集样本中376个基因(不是所有基因都有表达量)的表达量热图。可以看到不同亚型的样本中，这些基因的表达模式不同，说明DNA甲基化水平可以一定程度反映这些基因的表达量

图4. 对CpG位点对应的基因的分析

5. 识别亚型特异的CpG位点

A：在7个分子亚型的样本间对356个CpG位点进行差异分析，识别出36个分子亚型特异的CpG位点。其中亚型4有最多的特异CpG位点(18个)，与其它亚型相比都处于低甲基化状态(图中红色圈出)

箱线图：7种亚型的样本的CpG甲基化水平(经过Z标准化)，亚型4的甲基化水平最低

B：对A图中36个CpG位点注释的基因进行功能富集分析，它们显著富集在14条通路当中。但这些通路只富集在亚型2，4，7中，且不同亚型富集的通路不一样，说明不同亚型有自己的基因表达特征和通路特征

图5. 分析亚型特异的CpG位点

6. 建立并评估COAD患者的预后预测模型

作者对亚型4中的特异CpG位点进行后续分析，因为其样本量最大并且有最多的特异CpG位点。它的18个特异CpG位点都为低甲基化的。作者提取了训练集所有样本中这18个CpG位点的信号数据，据此重新进行层次聚类，分为了高低甲基化组。之后对高低甲基化组进行生存分析。

A：训练集中所有样本的18个特异CpG位点的信号值热图。可以看到横坐标样本被聚成了2类，红色为高甲基化组，青色为低甲基化组

B：高低甲基化组进行生存分析结果，高甲基化组有着更差的预后

高甲基化组更差的预后说明这些特异的CpG位点可能作为预后标志

图6. 18个特异CpG位点可能作为COAD的预后标志

在确定这18个特异甲基化位点有预后价值后，作者进一步根据它们在训练集中构建COX比例风险模型，得到Risck Score的公式，并计算每个样本的风险得分。

A：以风险得分预测样本的预后水平的ROC曲线，曲线下的面积AUC=0.81，预测效果较好

B：检验样本的甲基化水平是否随风险得分改变而改变。横坐标是样本，根据风险得分由小到大排列。纵坐标分别是风险得分(上)，病人总生存时间(中)，甲基化位点(下)。看到热图中样本的平均甲基化值随着样本的风险得分增大而增大(红色圈出)

C：以风险得分=1.336303为截取值(由ROC曲线得到的最优临界点)，将训练集样本分为高低风险组，进行生存分析。高风险组有着更差的预后水平，而高低风险组又与高低甲基化水平相关

图7. 构建COX比例风险模型

为进一步检验COX比例风险模型预测病人预后的能力，作者在测试集(27K芯片样本，n=151)中进行预测

A：测试集中样本根据计算得到的风险得分有小到大排列，并根据上文的截取值分为高低风险组(红色低风险组，蓝色高风险组)。这里给出测试集中样本在18个特异CpG位点上的信号值的热图。可以看出样本的风险得分随特异CpG位点上的信号值增高而增高

B：对测试集中的高低风险组进行生存分析，高风险组有着更差的预后

结果说明作者根据COAD患者18个特异甲基化位点构建的COX比例风险模型在预测COAD患者预后水平上有一定临床意义

图8. 在测试集中检验COX比例风险模型

小结

今天的文献分享到这里就结束了，本文基于TCGA-COAD患者的甲基化数据进行生信分析，先对样本以及两个甲基化芯片中CpG位点严格过滤，再在训练集中通过单/多因素COX回归找到与预后相关的甲基化位点，并对其对应的基因进行功能，表达量上的分析。下一步，为了分亚型，以这些甲基化位点为输入进行一致性聚类，结果分为7类并分析了类间在预后以及临床特征上的差异。为构建预后模型，作者先分析亚型特异的CpG位点，根据亚型4中18个特异CpG位点为输入，再聚类为高低甲基化组，生存分析确定有预后价值。再以其为输入构建COX比例风险模型，在训练集和验证集中评估预测能力。

网友评论

文献阅读

本文标题：基于DNA甲基化的分子亚型构建发5+分

本文链接：https://www.haomeiwen.com/subject/zufqohtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于DNA甲基化的分子亚型构建发5+分

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

文献阅读