甲基化纯生信分析套路 6+|NSCLC-多组学EGFR野生型P

作者: 概普生信 | 来源:发表于2020-10-19 17:31 被阅读0次

结合多个角度整合多组学数据进行预后分析会使研究更为全面准确，今天小编要和大家分享的就是一篇今年九月发表在Cancers（IF:6.126）上的关于PD-L1低表达的EGFR野生型非小细胞肺癌预后的文章，作者将表达数据与甲基化数据相结合进行分析筛选潜在的治疗靶点。

结合甲基化组及转录组揭示PD-L1低表达的EGFR野生型肺癌的潜在治疗靶点

一．文章摘要

PD-L1低表达的EGFR野生型非小细胞肺癌（NSCLCs）是很难治疗的，其有效的治疗方法很少。这篇文章的主要目的是阐明这种特殊亚型NSCLC的分子基础，并识别潜在的治疗靶点。研究整合了多组学数据，包括转录组、甲基组和临床结果，来揭示表观遗传变化对这种特殊亚型肺癌的影响。文章研究了异常甲基化和相关的异常基因表达，并将整合的甲基化转录模式分为HypoUp, HypoDown, HyperUp及 HyperDown。研究发现异常的甲基化转录模式显著影响患者的总生存时间。此外，作者使用蛋白-药物相互作用数据和分子对接分析来识别潜在的治疗方案。研究揭示了这种特殊亚型肺癌独特的甲基化转录特征，为确定潜在的治疗靶点提供了一种可行性的方法。

二．材料及方法

1.样本数据集：作者从TCGA获取了NSCLC及癌旁组织的表达数据、甲基化数据及相应的临床数据。数据中包括108个正常样本及133例PD-L1低表达的EGFR野生型肺癌样本，其中75例正常样本及上述提到的癌症样本既有甲基化数据也有表达数据。作者也下载了132例癌症样本的突变注释文件。为了验证结果，作者还纳入了Gene expression Omnibus (GEO)中的NSCLC表达数据集和甲基化数据以及相应的临床信息(GSE31210)。

2.免疫谱的分析：作者使用肿瘤免疫评估资源（TIMER）分析了PD-L1低表达的EGFR野生型NSCLC样本的包括B细胞、树突细胞、中性粒细胞、CD8+T细胞、巨噬细胞及CD4+T细胞在内的肿瘤浸润淋巴细胞。同时使用ESTIMATE算法获取微环境因子表达得分。

3.DNA甲基化数据分析：分析使用的 Illumina HumanMethylation450 BeadChip阵列包括覆盖99% RefSeq基因的485577个探针。接着作者通过比较正常样本与PD-L1低表达的EGFR野生型NSCLC样本的CpG位点来识别差异甲基化CpG位点（DMS）。作者从Illumina提供的注释文件中获得与基因相关的CpG位点，作者也使用R包limma评估了差异甲基化区域（DMRs）。

4.基因表达数据的分析：作者使用表达数据进行差异表达分析，识别出差异表达基因（DEGs），包括上调基因与下调基因。

5.不同区域DMGs和DEGs的分析：为了揭示甲基化和表达谱之间的关系，作者分析了DMGs和DEGs的交集以识别DMEGs。

6.功能富集分析：作者使用GO及KEGG进行功能富集分析。

7.评估表达和甲基化生物标志物：在DMEG中的DMS的主成分分析被用来区分肿瘤和非肿瘤样本。使用R包randomForest基于DMEGs表达谱及DMSs甲基化谱分类样本，并用留一法交叉验证（LOOCV）对结果进行验证，同时也对结果进行ROC及AUC评估。

8.构建基于DMEGs的预后特征：作者结合表达数据及生存数据，使用LASSO回归分析识别具有预后价值的DMEGs并构建基于DMEGs的预后特征。

9.识别潜在的药物靶点：作者使用NetworkAnalyst3.0来执行蛋白质药物互作分析，识别潜在的药物靶点。从 DrugBank中获取蛋白和药物靶点信息。

10.同源建模：文章使用一个计算蛋白质与配体对接的软件AutodockVina评估候选药物与靶点的结合能和相互作用模式。使用GROMACS进行分子动力学模拟，使用Ramachandran plots评估 stereo-chemical质量。

11.分子对接：使用ChemBioDrawUltra来绘制所有候选药物的3D结构，然后用MMFF94力场进行能量优化，其中XDH,ATIC,CA9,GAPDH的3D结构来自于PDB,而SLC7A11的3D结构来自于同原模型。接着使用Aurodock Vina进行分子对接。

三．研究的主要内容及结果

1.PD-L1低表达的EGFR野生型NSCLC中的DMGs

在文章的第一部分，作者首先进行了差异甲基化分析，分析聚焦于转录起始位点TSS200,TSS1500及基因体。识别出了注释1586个基因的3250个DMRs（图1A-C）。然后将DMRs在TSS200,TSS1500区域划分为超甲基化DMRs及去甲基化DMRs（图1D,F）。可以观察到超甲基化DMRs显著高于去甲基化DMRs，同时在这三个区域中TSS1500与多数DMGs相关（图1E）。在这些DMRs中的1586个DMGs中，有53个基因出现在3个区域，236个基因出现在至少两个区域，1297个基因出现在一个区域（图1E）。接着作者使用GO和KEGG评估这些差异基因的功能及通路，结果如图（G-J）。

图1 PD-L1低表达的EGFR野生型NSCLC中的DMGs

2.免疫谱系的分析

在文章的第二部分，作者对这一类型肺癌进行了免疫细胞谱系的刻画。作者分析了B细胞、树突细胞、中性粒细胞、CD8+T细胞、巨噬细胞及CD4+T细胞的表达，使用TIMER作者发现在低PD-L1表达的NSCLC中所有类型的免疫细胞表达相对低于正常组织（图2A），表明了在双阴性NSCLC中存在免疫抑制。作者使用ESTIMATE验证免疫状态发现在PD-L1低表达的NSCLC中免疫得分，基质得分及ESTIMATE得分显著更低（图2B）。作者评估免疫检查点基因表达发现在PD-L1低表达的EGFR野生型NSCLF中检查点基因显著下调（图2C）。

图2 PD-L1低表达的EGFR野生型NSCLC中的免疫特征得分

3.PD-L1低表达的EGFR野生型NSCLC中的差异表达基因

在这一部分，作者对PD-L1低表达的EGFR野生型NSCLC样本与正常样本的差异表达基因进行了分析，分析发现了1037个上调基因2141个下调基因（图3A）。接下作者进行了无监督层次聚类分析，可以区分肺癌样本和正常样本（图3B）。作者也对上调基因及下调基因分别进行了功能富集分析，分析结果如图3C,D所示。

图3 PD-L1低表达的EGFR野生型NSCLC中的差异表达基因

4.PD-L1低表达的EGFR野生型NSCLC中的差异甲基化及表达基因（DMEGs）

在文章的这一部分，作者为了刻画基因甲基化与表达之间的关系，分析了三个区域中差异基因与差异甲基化的交集（图4A-C），分析将DMEGs分为四类：HypoUp（delta β<-0.2且log2fc>1）,HypoDown(deltaβ<-0.2且log2fc<-1),hyperup(deltaβ>0.2且log2FC>1),HyperDown(deltaβ>0.2且log2FC<-1)（图4d-f），分析发现hyperdown组最普遍。

图4 PD-L1低表达的EGFR野生型NSCLC中的差异甲基化及表达基因

5.DMEGs分析

耦合分析识别249个DMEGs中包含297个分布在不同区域的DMSs，在文章的这一部分作者对DMEGs进行了进一步的分析。作者为了评估DNA甲基化和基因表达的区别，作者基于DMEGs及DMSs构建随机森林分类器，后续进行PCA及ROC分析，结果所有的样本正确分类（图5A,B），ROC及AUC结果如图5C,D所示。接着作者对上调及下调DMEGs进行了功能富集分析，分析结果如图6A，B所示。

图5 通过DNA甲基化及基因表达模式预测PD-L1低表达的EGFR野生型NSCLC

图6 上调和下调的DMEGs的富集通路分析

6.构建及评估基于DMEGs的预后特征

在这一部分，作者为了评估DMEGs在肺癌中的预后效能，使用LASSO回归基于DMEGs构建预后特征。经过交叉验证等评估，作者选择四个候选的DMEGs来开发预后模型，构建风险得分（图7A,B），KM分析结果如图7B所示。图8A展示了4个预后DMEGs的风险得分分布、生存状态、及表达。预后模型的ROC及AUC评估结果如图8B所示，风险模型的KM分析结果如图8C所示。

图7 识别4 DMEGs风险特征

图8 风险得分与生存的关系

7.多个DMEG是潜在的药物靶点

在这一部分，作者为了探索靶向这些DMEGs的药物，应用NetworkAnalyst分析来自DrugBank的蛋白质与药物互作数据，最终识别出9个药物互作，包括XDH，ATIC，CA9，SLC7A11，GAPDH，XDH等，如表1所示。

表1 现有药物靶向的9个DMEG

8.通过分子对接分析验证候选药物的亲和力

在文章的最后一部分，作者为了阐明候选药物和靶点之间的结合模型，进行了分子对接分析。首先根据同源建模预测了SLC7A11蛋白结构的3D模型，后续发现大型中性氨基酸转运体和小型亚基具有较高的序列相似性，被认为是建模的理想模板（图9A）。Ramachandran plot分析展示92.26%的残留在允许的区域,表明预测结构的准确性（图9B）。接着采用分子动力学模拟方法进一步细化蛋白质结构质量，采用RMSD方法估计蛋白质模型的稳定性。如图9C所示，RMSD剖面显示了SLC7A11模型的分子动力学结果，识别出SLC7A11的最终结构趋于稳定。接下来，作者通过Autodock Vina 分析靶点和候选药物的结合模式，生成各靶点-药物相互作用的结合能（图10）。

图9 SLC7A11蛋白结构的同源建模

图10 通过分子对接筛选药物与靶点的结合模式有分析意向（http://gaptechsxr.mikecrm.com/1vdMmqy）生信人WX公众号

到这里这篇文章的主要内容就介绍完了。文章将研究目光聚焦于PD-L1低表达的EGFR野生型的非小细胞肺癌，将转录组的表达数据与表观组的甲基化数据相结合，进行预后分析，最终筛选出潜在的药物靶点。文章整合多组学数据，采用差异分析，生存分析，功能富集分析等多种生物信息方法，从多个角度对这一类型的非小细胞肺癌进行了研究。文章工作量很多，分析的套路角度值得我们参考学习。然而，文章中也存在一些书写描述性错误，例如文章第五个结果中将转录起始位点TSS1500描写成了TSS500。此外，文章第四个结果中对四类DMEGs阈值的描述也不正确，在解读过程中，小编对这些错误进行了更正，小伙伴们在阅读原文献的过程中可以注意一下。

甲基化纯生信分析套路 6+|NSCLC-多组学EGFR野生型P

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

文章套路

TCGA