美文网首页一些文献
文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑

文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑

作者: sarashang | 来源:发表于2022-05-26 18:02 被阅读0次
Title.png

Background

选取的文章是发表于JCIM期刊2020年9月的文章,采用机器学习、分子对接和MD的方法发现双抑制剂。

Protocols

文章中以定量构效关系(QSAR)为基础,采用了四种机器学习的方法训练预测模型,分别是支持向量机(support vector machine, SVM), 随机森林(random forest, RF), 梯度提升回归树(gradient boost regression tree, GBRT)和 XGBoost (XGB)。最后得到SVM训练的模型是最稳定的,选择化合物进行酶活测试,并且又进行了分子对接和分子动力学模拟(MD)分析相互作用的关键氨基酸。

数据准备

数据库:BingdingDB、ChEMBL数据库

分子描述符计算

MOE计算得到206个二维描述符
PaDEL软件计算出MACCS、Substructure、KlekotaRoth、PubChem等12种分子指纹

注意:

  1. 选择特征描述符之前先进行预处理(低方差滤波、高相关滤波)
  2. 测试集与训练集的差异要足够大

“The final result of a logical and mathematical procedure, which transforms chemical information encoded within a symbolic representation of a molecule into a useful number or the result of some standardized experiment.” [1]

特征描述符选择

  1. 根据pIC50与其有效性之间的交互信息,将2319和2937个描述符由高到低进行排序。
  2. 四种机器学习方法中使用不同数量的描述符来寻找最优模型。
  3. 对于每个不同数量的描述符,选择产生10倍交叉验证中最高Q2下的优化参数来构建模型。
  4. FGFR4的活性预测模型中,180个特征被分为两类:53个二维分子描述符和127种分子指纹;在EGFR活性预测模型中, 280个特征被分为两类:61个二维分子描述符和219种分子指纹。

模型构建

训练和测试集上FGFR4和EGFR活性预测模型的统计结果

SVM模型表现出了最佳性能,训练集R2train=0.94,MSEtrain=0.06,测试集R2test=0.80,MSEtest=0.16。只有SVM模型获得Q2>0.7,MSE<0.3(Q2 = 0.71, MSEcv = 0.29),说明交互信息选择的180个描述符能够有效地预测pIC50值。

分子对接和动力学模拟

通过薛定谔软件进行分子对接,将对接后的结果使用AMBER14软件进行MD模拟,并结合MMGBSA重打分结果,对口袋中的关键残基(对结合能贡献大于1 kcal/mol)进行分析。

参考:

  1. https://drzinph.com/computing-molecular-descriptors-intro/?preview=true&_thumbnail_id=206

相关文章

网友评论

    本文标题:文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑

    本文链接:https://www.haomeiwen.com/subject/xiomprtx.html