美文网首页文章套路TCGA
甲基化纯生信分析套路 6+|NSCLC-多组学EGFR野生型P

甲基化纯生信分析套路 6+|NSCLC-多组学EGFR野生型P

作者: 概普生信 | 来源:发表于2020-10-19 17:31 被阅读0次

    结合多个角度整合多组学数据进行预后分析会使研究更为全面准确,今天小编要和大家分享的就是一篇今年九月发表在Cancers(IF:6.126)上的关于PD-L1低表达的EGFR野生型非小细胞肺癌预后的文章,作者将表达数据与甲基化数据相结合进行分析筛选潜在的治疗靶点。

    结合甲基化组及转录组揭示PD-L1低表达的EGFR野生型肺癌的潜在治疗靶点

    一.文章摘要

    PD-L1低表达的EGFR野生型非小细胞肺癌(NSCLCs)是很难治疗的,其有效的治疗方法很少。这篇文章的主要目的是阐明这种特殊亚型NSCLC的分子基础,并识别潜在的治疗靶点。研究整合了多组学数据,包括转录组、甲基组和临床结果,来揭示表观遗传变化对这种特殊亚型肺癌的影响。文章研究了异常甲基化和相关的异常基因表达,并将整合的甲基化转录模式分为HypoUp, HypoDown, HyperUp及 HyperDown。研究发现异常的甲基化转录模式显著影响患者的总生存时间。此外,作者使用蛋白-药物相互作用数据和分子对接分析来识别潜在的治疗方案。研究揭示了这种特殊亚型肺癌独特的甲基化转录特征,为确定潜在的治疗靶点提供了一种可行性的方法。

    二.材料及方法

    1.样本数据集:作者从TCGA获取了NSCLC及癌旁组织的表达数据、甲基化数据及相应的临床数据。数据中包括108个正常样本及133例PD-L1低表达的EGFR野生型肺癌样本,其中75例正常样本及上述提到的癌症样本既有甲基化数据也有表达数据。作者也下载了132例癌症样本的突变注释文件。为了验证结果,作者还纳入了Gene expression Omnibus (GEO)中的NSCLC表达数据集和甲基化数据以及相应的临床信息(GSE31210)。

    2.免疫谱的分析:作者使用肿瘤免疫评估资源(TIMER)分析了PD-L1低表达的EGFR野生型NSCLC样本的包括B细胞、树突细胞、中性粒细胞、CD8+T细胞、巨噬细胞及CD4+T细胞在内的肿瘤浸润淋巴细胞。同时使用ESTIMATE算法获取微环境因子表达得分。

    3.DNA甲基化数据分析:分析使用的 Illumina HumanMethylation450 BeadChip阵列包括覆盖99% RefSeq基因的485577个探针。接着作者通过比较正常样本与PD-L1低表达的EGFR野生型NSCLC样本的CpG位点来识别差异甲基化CpG位点(DMS)。作者从Illumina提供的注释文件中获得与基因相关的CpG位点,作者也使用R包limma评估了差异甲基化区域(DMRs)。

    4.基因表达数据的分析:作者使用表达数据进行差异表达分析,识别出差异表达基因(DEGs),包括上调基因与下调基因。

    5.不同区域DMGs和DEGs的分析:为了揭示甲基化和表达谱之间的关系,作者分析了DMGs和DEGs的交集以识别DMEGs。

    6.功能富集分析:作者使用GO及KEGG进行功能富集分析。

    7.评估表达和甲基化生物标志物:在DMEG中的DMS的主成分分析被用来区分肿瘤和非肿瘤样本。使用R包randomForest基于DMEGs表达谱及DMSs甲基化谱分类样本,并用留一法交叉验证(LOOCV)对结果进行验证,同时也对结果进行ROC及AUC评估。

    8.构建基于DMEGs的预后特征:作者结合表达数据及生存数据,使用LASSO回归分析识别具有预后价值的DMEGs并构建基于DMEGs的预后特征。

    9.识别潜在的药物靶点:作者使用NetworkAnalyst3.0来执行蛋白质药物互作分析,识别潜在的药物靶点。从 DrugBank中获取蛋白和药物靶点信息。

    10.同源建模:文章使用一个计算蛋白质与配体对接的软件AutodockVina评估候选药物与靶点的结合能和相互作用模式。使用GROMACS进行分子动力学模拟,使用Ramachandran plots评估 stereo-chemical质量。

    11.分子对接:使用ChemBioDrawUltra来绘制所有候选药物的3D结构,然后用MMFF94力场进行能量优化,其中XDH,ATIC,CA9,GAPDH的3D结构来自于PDB,而SLC7A11的3D结构来自于同原模型。接着使用Aurodock Vina进行分子对接。

    三.研究的主要内容及结果

    1.PD-L1低表达的EGFR野生型NSCLC中的DMGs

    在文章的第一部分,作者首先进行了差异甲基化分析,分析聚焦于转录起始位点TSS200,TSS1500及基因体。识别出了注释1586个基因的3250个DMRs(图1A-C)。然后将DMRs在TSS200,TSS1500区域划分为超甲基化DMRs及去甲基化DMRs(图1D,F)。可以观察到超甲基化DMRs显著高于去甲基化DMRs,同时在这三个区域中TSS1500与多数DMGs相关(图1E)。在这些DMRs中的1586个DMGs中,有53个基因出现在3个区域,236个基因出现在至少两个区域,1297个基因出现在一个区域(图1E)。接着作者使用GO和KEGG评估这些差异基因的功能及通路,结果如图(G-J)。

    图1 PD-L1低表达的EGFR野生型NSCLC中的DMGs

    2.免疫谱系的分析

    在文章的第二部分,作者对这一类型肺癌进行了免疫细胞谱系的刻画。作者分析了B细胞、树突细胞、中性粒细胞、CD8+T细胞、巨噬细胞及CD4+T细胞的表达,使用TIMER作者发现在低PD-L1表达的NSCLC中所有类型的免疫细胞表达相对低于正常组织(图2A),表明了在双阴性NSCLC中存在免疫抑制。作者使用ESTIMATE验证免疫状态发现在PD-L1低表达的NSCLC中免疫得分,基质得分及ESTIMATE得分显著更低(图2B)。作者评估免疫检查点基因表达发现在PD-L1低表达的EGFR野生型NSCLF中检查点基因显著下调(图2C)。

    图2 PD-L1低表达的EGFR野生型NSCLC中的免疫特征得分

    3.PD-L1低表达的EGFR野生型NSCLC中的差异表达基因

    在这一部分,作者对PD-L1低表达的EGFR野生型NSCLC样本与正常样本的差异表达基因进行了分析,分析发现了1037个上调基因2141个下调基因(图3A)。接下作者进行了无监督层次聚类分析,可以区分肺癌样本和正常样本(图3B)。作者也对上调基因及下调基因分别进行了功能富集分析,分析结果如图3C,D所示。

    图3 PD-L1低表达的EGFR野生型NSCLC中的差异表达基因

    4.PD-L1低表达的EGFR野生型NSCLC中的差异甲基化及表达基因(DMEGs)

    在文章的这一部分,作者为了刻画基因甲基化与表达之间的关系,分析了三个区域中差异基因与差异甲基化的交集(图4A-C),分析将DMEGs分为四类:HypoUp(delta β<-0.2且log2fc>1),HypoDown(deltaβ<-0.2且log2fc<-1),hyperup(deltaβ>0.2且log2FC>1),HyperDown(deltaβ>0.2且log2FC<-1)(图4d-f),分析发现hyperdown组最普遍。

    图4 PD-L1低表达的EGFR野生型NSCLC中的差异甲基化及表达基因

    5.DMEGs分析

    耦合分析识别249个DMEGs中包含297个分布在不同区域的DMSs,在文章的这一部分作者对DMEGs进行了进一步的分析。作者为了评估DNA甲基化和基因表达的区别,作者基于DMEGs及DMSs构建随机森林分类器,后续进行PCA及ROC分析,结果所有的样本正确分类(图5A,B),ROC及AUC结果如图5C,D所示。接着作者对上调及下调DMEGs进行了功能富集分析,分析结果如图6A,B所示。

    图5 通过DNA甲基化及基因表达模式预测PD-L1低表达的EGFR野生型NSCLC

    图6 上调和下调的DMEGs的富集通路分析

    6.构建及评估基于DMEGs的预后特征

    在这一部分,作者为了评估DMEGs在肺癌中的预后效能,使用LASSO回归基于DMEGs构建预后特征。经过交叉验证等评估,作者选择四个候选的DMEGs来开发预后模型,构建风险得分(图7A,B),KM分析结果如图7B所示。图8A展示了4个预后DMEGs的风险得分分布、生存状态、及表达。预后模型的ROC及AUC评估结果如图8B所示,风险模型的KM分析结果如图8C所示。

    图7 识别4 DMEGs风险特征

    图8 风险得分与生存的关系

    7.多个DMEG是潜在的药物靶点

    在这一部分,作者为了探索靶向这些DMEGs的药物,应用NetworkAnalyst分析来自DrugBank的蛋白质与药物互作数据,最终识别出9个药物互作,包括XDH,ATIC,CA9,SLC7A11,GAPDH,XDH等,如表1所示。

    表1 现有药物靶向的9个DMEG

    8.通过分子对接分析验证候选药物的亲和力

    在文章的最后一部分,作者为了阐明候选药物和靶点之间的结合模型,进行了分子对接分析。首先根据同源建模预测了SLC7A11蛋白结构的3D模型,后续发现大型中性氨基酸转运体和小型亚基具有较高的序列相似性,被认为是建模的理想模板(图9A)。Ramachandran plot分析展示92.26%的残留在允许的区域,表明预测结构的准确性(图9B)。接着采用分子动力学模拟方法进一步细化蛋白质结构质量,采用RMSD方法估计蛋白质模型的稳定性。如图9C所示,RMSD剖面显示了SLC7A11模型的分子动力学结果,识别出SLC7A11的最终结构趋于稳定。接下来,作者通过Autodock Vina 分析靶点和候选药物的结合模式,生成各靶点-药物相互作用的结合能(图10)。

    图9 SLC7A11蛋白结构的同源建模

    图10 通过分子对接筛选药物与靶点的结合模式有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

    到这里这篇文章的主要内容就介绍完了。文章将研究目光聚焦于PD-L1低表达的EGFR野生型的非小细胞肺癌,将转录组的表达数据与表观组的甲基化数据相结合,进行预后分析,最终筛选出潜在的药物靶点。文章整合多组学数据,采用差异分析,生存分析,功能富集分析等多种生物信息方法,从多个角度对这一类型的非小细胞肺癌进行了研究。文章工作量很多,分析的套路角度值得我们参考学习。然而,文章中也存在一些书写描述性错误,例如文章第五个结果中将转录起始位点TSS1500描写成了TSS500。此外,文章第四个结果中对四类DMEGs阈值的描述也不正确,在解读过程中,小编对这些错误进行了更正,小伙伴们在阅读原文献的过程中可以注意一下。

    相关文章

      网友评论

        本文标题:甲基化纯生信分析套路 6+|NSCLC-多组学EGFR野生型P

        本文链接:https://www.haomeiwen.com/subject/alclmktx.html