美文网首页文章套路
深度学习预测泛癌种转移状态发7+SCI

深度学习预测泛癌种转移状态发7+SCI

作者: 概普生信 | 来源:发表于2021-10-26 16:18 被阅读0次

    大家好呀!今天给大家介绍一篇2021年9月发表在Computational and Structural Biotechnology Journal(IF:7.271)上的文章。本研究作者首次使用DL和多组学泛癌种数据预测癌症转移状态。作者使用TCGA数据库的420例样本的mRNA数据,miRNA数据和DNA甲基化数据,基于卷积变分自编码器(CVAE)提取特征并输入深度神经网络(DNN)模型,可用于预测肿瘤是否已经转移(M)或是原发性(P)

    MetaCancer: A deep learning-based pan-cancer metastasis prediction model developed using multi-omics data

    MetaCancer:使用多组学数据基于深度学习构建泛癌种转移的预后模型

    研究背景:

            在转移相关研究中通常是预测癌症是否发生转移来将肿瘤样本划分为原发性(P)和转移性(M)。目前,通常是使用不同组学数据构建预测转移的模型,使用的方法主要有基于网络和基于排序的方法。基于网络的方法是由He等人开发的,He等人首先鉴定转移和非转移骨肉瘤(OS)患者的差异表达基因(DEGs),并利用DEGs构建蛋白互作网络(PPI)。然后,根据He等人根据网络属性,中心性(BC)对DEGs进行排序并基于排名靠前的DEGs使用SVM构建分类模型。基于排序的方法主要是Wu等人使用最小冗余最大相关性(mRMR)特征选择和遗传算法提取最相关的DNA甲基化探针构建分类模型。大部分方法仅使用单一组学数据预测转移。本研究作者使用mRNA,miRNA和DNA甲基化三种组学数据和深度学习方法构建了预测转移的模型。

    摘要:

            对癌症患者预测是否发生转移有助于临床医生对患者调整治疗方案。目前,已开发了一些计算方法鉴定早期转移。然而,大多数方法仅关注一种基因组水平的变化,且不是针对泛癌种开发的方法。本研究,作者基于深度学习(DL)构建预测泛癌种转移的模型—metaCancer,该模型基于三种测序数据预测泛癌种的转移情况。本研究纳入的数据来自TCGA数据库的400例泛癌患者的RNA-seq数据,miRNA-seq数据和DNA甲基化数据。作者使用卷积变分自编码器(CVAE)和替代特征提取方法和神经网络构建泛癌种转移状态的预测模型。作者的研究表明,结合mRNA,miRNA和DNA甲基化数据作为特征可以提高预测模型的性能,mRNA相关特征在预测转移状态的作用更大。作者构建的基于DL的模型性能显著优于ML模型。

    方法和数据:

    1.数据集的获取和下载

            作者从TCGA数据集下载泛癌种的mRNA-seq数据,miRNA-seq数据和DNA甲基化数据,有11种癌症类型有这三类组学数据并且至少有10个样本发生转移。根据AJCC分类,M0定义为未发生转移,M1定义为转移。本研究共包含210例转移样本和210例未发生转移样本。其中M1样本分别为10例CESC,10例THCA,10例KIRP,10例UBC,10例ESCA,11例READ,20例STAD,17例BRCA,19例LUAD,41例COAD和52例KIRC。

    2.深度学习框架

            作者应用卷积变分自编码器(CVAE)进行特征提取(图1),CVAE包括编码器和解码器结构,分别包括两个卷积层和一个稠密层。CVAE的输入为mRNA,miRNA和DNA甲基化组学数据的矩阵。

    图1 CVAE

            作者使用深度神经网络(DNN)构建分类模型,在完成CVAE训练后将结果输入给DNN分类器,用于预测输入数据是否发生转移(M)或原发(P)(图2)。

    图2 DNN分类模型

            为比较DL模型的性能,作者应用了两种其他特征选择方法,分别为PPI网络构建(network-based)和特征递归消除(rank-based)。作者从BioGRID,HPRD和DIP数据库下载PPI信息并使用Cytoscape构建DEGs的网络。作者构建DEGs的PPI 网络并计算每个节点的BC,BC越大则DEGs的重要性越大。作者选择排名前100的基因构建分类器。此外,作者计算基因与转移状态的相关性并对基因进行排序,按照递归消除算法构建分类器。

    结果:

    1.特征选择方法比较

           特征提取方法会影响模型的预测性能。因此,作者比较了使用CVAE方法和其他特征提取方法构建模型的准确性,敏感性,特异性,精确度和F1打分。作者应用特征提取方法为PPI网络构建和递归特征消除的方法,这两种方法仅使用mRNA数据。作者构建的DL模型同样仅使用mRNA数据。如表1所示,基于CVAE的特征选择方法的性能较高。与其他两种方法相比,基于CVAE方法提取的特征可以更准确的区分原发性肿瘤和转移性肿瘤。

    表1 特征选择方法比较

    2.评估不同组学数据的重要性

            随后,作者比较了不同组学数据对DL模型的重要性,如图3所示,使用三种组学数据的模型性能较好,其次为mRNA模型。

    图3 miRNA数据的MetaCancer和多组学数据的MetaCancer性能

            随后,作者分析每类组学数据对模型性能的贡献,使用单一组学数据和多种组学数据的AUC作为评价指标。使用的那一组学数据时,mRNA的表现最好,miRNA的表现最差,然而三种组学数据的性能最好(图4A)。当排除mRNA数据时AUC下降最大,排除miRNA数据时AUC下降最小(图4B)。总的来说,mRNA数据可能是鉴定转移状态的重要特征,而miRNA的贡献最小。

    图4 MetaCancer性能

    3.MetaCancer模型与其他集成模型的比较

            作者将MetaCancer模型与Bhalla等人构建的集成模型进行比较(表2)。Bhalla等人构建集成模型包括三个独立模型,mRNA,miRNA和DNA甲基化数据分别构建一个模型。对于mRNA数据和miRNA数据使用SVC-L1进行特征选择,使用SVM构建分类模型,对于DNA甲基化数据使用WEKA-FCBR进行特征选择,使用LR作为分类模型。对于每种组学数据的预测打分作为输入特征,使用SVM构建最终的分类模型。表4为MetaCancer和Bhalla的集成模型的性能,结果表明MetaCancer的性能优于集成模型并且MetaCancer可应用于11种癌症类型,准确率为88.85而Bhalla的集成模型仅适用于一种癌症,准确率为87.64%。

    表2 模型性能比较

    总结:

    尽管已有很多应用于转移状态预测的研究,但大多数研究并没有考虑基因组层面的变化对转移状态的影响。本研究,作者研究mRNA,miRNA和DNA甲基化对转移状态的贡献,使用三种组学数据构建DL模型预测肿瘤患者是否发生转移。本研究有助于医生更早的识别转移性肿瘤,从而修改治疗方案来治疗转移性肿瘤。

    相关文章

      网友评论

        本文标题:深度学习预测泛癌种转移状态发7+SCI

        本文链接:https://www.haomeiwen.com/subject/ymhyaltx.html