美文网首页文章套路
贝叶斯算法预测乳腺癌疗效

贝叶斯算法预测乳腺癌疗效

作者: 概普生信 | 来源:发表于2020-05-11 09:23 被阅读0次

    大家好,今天给大家带来的研究前沿是关于贝叶斯算法预测乳腺癌疗效的。乳腺癌在全世界妇女中的发病率和死亡率都很高,化疗对许多乳腺癌患者是有效的,但对一些患者却没有疗效。pCR,指的是乳腺内没有残留的侵袭性病变(俗称病理完全缓解),它是新辅助化疗(NAC)良好反应的指标。这项研究中的目标是开发一种在NAC之前预测pCR的方法。

    方法

    患者

    作者收集了287例II-III期乳腺癌病例作为训练集(N=197)或测试集(N=90)(下表)。通过免疫组织化学(IHC)法检测新辅助化疗前FFPE组织中的雌激素受体(ER),孕激素受体(PR)和人表皮生长因子受体-2(HER2)状态。

     

    基因选择

    作者下载了4个Affymetrix微阵列数据集(GSE41998、GSE25065、GSE20271和GSE20194),包括829名乳腺癌患者及乳腺癌NAC敏感性信息。Raw.cel文件由Affymetrix Expression Console软件进行注释。在每个单独的数据集中,使用Affymetrix Transcriptome Analysis Console软件计算达到pCR或非pCR患者之间的差异基因表达。最后,选择了14个基因用于后续研究,其中每个基因在至少3个数据集中具有差异表达。3个参考基因(ACTB,GAPDH和RPLPO)用作内部对照。

    定量聚合酶链反应(qPCR)

    作者用RNasy FFPE试剂盒从NAC前FFPE标本中提取RNA,并用ScanDrop软件测定RNA的含量和质量。所有选定的基因使用基于TaqMan探针定量聚合酶链反应系统进行测量。此外,使用BIO-RAD CFX Manager软件来计算周期阈值,并采用2-△Ct法进行基因相对表达量的测定。

    IHC4评分的量化

    根据已有研究的算法,IHC4分数计算如下:

    其中,ER10的计算方法是将H分数除以30,PR10是通过将阳性细胞的百分比年龄除以10来获得的,根据阳性染色的恶性细胞的百分比记录Ki67。当HER2为负值时,IHC4评分的调整算法如下:

    统计分析

    基于基因表达数据,作者采用朴素贝叶斯、随机森林、支持向量机(SVM)和k-近邻4种不同的候选算法建立预测模型。287名乳腺癌患者通过分层随机抽样分为训练组(N=230)和测试组(N=57)。为了进一步确保随机样本,每次都在训练集和测试集之间测试独立且均匀分布(IID)的随机变量。然后,通过对每个训练集使用交叉验证方法,使用每种算法来建立预测模型。在这里,使用AUC,F1得分和灵敏度来评估相应测试集中预测pCR的模型,这4种算法之间的AUC,F1得分和灵敏度之间的差异是由Student t检验计算得出。

    为了确定训练集的适当样本大小,作者将测试集数量保持不变,并将训练集大小从58增加到219,增量为229的5%。采用分层随机抽样的方法,将每个训练集中的样本分成训练集和测试集(N=58),重复50次。然后对相应测试集计算AUC值,AUC的散布图拟合为y=a+b*x^c。

    通过单因素和多因素Logistic回归分析,计算临床病理特征和预测模型与pCR的关系。采用皮尔森卡方检验和费希尔精确检验,计算各组间pCR率的差异。根据Delong检验来比较两种预测模型的AUC值。

    结果

    所选基因的评估

    作者从4个公开的数据集中选择了14个基因,关于基因表达水平与pCR之间相关性的Meta分析显示在图1,TFF1和NAT1等7个基因与pCR呈显著负相关,IGLC1和IGHM等6个基因与pCR呈正相关。通过qPCR检测患者的mRNA表达的层次聚类,发现了3个主要的基因簇,簇A包含7个在HR阳性病例中高表达的基因(TFF1、NAT1等)(图2A),簇B包含在高水平的TILs情况下高表达的基因(CYAT1,IGLC1等)(图2B)。

    样本量和预测模型算法

    作者利用RT-qPCR检测了287例NAC治疗后候选基因的基因表达数据,建立pCR预测模型。训练集在不同的建模方法中使用,以选择预测模型的最佳方法(下图)。朴素贝叶斯和随机森林算法显示出较高的AUC(图A)和F1值(图B)。然而,朴素贝叶斯算法在这4种算法中表现出最高的灵敏度(图C)。为了找到使用朴素贝叶斯算法建立预测模型的合适训练集大小,作者使用了从58到219个不同样本大小的训练集和一个包含58个样本的恒定测试集,通过以229的5%的增量增加训练集的大小,观察到平均AUC逐渐增加,并在184个训练样本处变得稳定(图D)。因此,这也确定了最终的NAC治疗的患者分组,即训练组(N=197)和测试组(N=90)。然后利用朴素贝叶斯算法在训练集中建立17个基因的预测模型,并在测试集中进行测试。

    17基因预测模型的预测性能

    使用这个17基因预测模型,所有入选的患者可以分为两组。预测可能达到pCR的患者被归入敏感(SE)组,预测不太可能达到pCR的患者被归入不敏感(INS)组。在训练集中,SE组的pCR率为43.2%,明显高于INS组的7.8%(图B)。对于测试集,SE组和INS组的pCR率有显著差异(40.4% vs 7.0%,图C)。在分析临床特征与pCR的相关性时(下表),在单因素分析中,HR状态、HER2状态、Ki67状态、TILs和临床分期与pCR显著相关。

    17基因预测模型与IHC4评分的预测性能比较

    已有研究表明IHC4评分可以预测ER阳性乳腺癌的pCR。在该研究中,在HR阳性的病例中,IHC4评分与pCR显著相关,而在HR阴性的病例中,IHC4评分与PCR无显著相关。然而,17基因预测模型在HR阳性和阴性病例均与pCR呈正相关。当比较这2个预测模型的预测值时,在HR阴性乳腺癌中,17基因预测模型的AUC值明显高于IHC4评分,它们在HR阳性乳腺癌中的AUC值没有差异。此外,与IHC4评分(43.2%)相比,这个17基因预测模型对HR阳性病例的预测性能也有更高的灵敏度(78.4%)。在SE组中,IHC4得分高的患者的pCR率最高(48.3%),在INS组中IHC4得分低的患者的pCR率最低(5.0%)。 

    参考文献

    Prediction model of the response to neoadjuvant chemotherapy in breast cancers by a Naive Bayes algorithm

    相关文章

      网友评论

        本文标题:贝叶斯算法预测乳腺癌疗效

        本文链接:https://www.haomeiwen.com/subject/hoyynhtx.html