文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑

作者: sarashang | 来源:发表于2022-05-26 18:02 被阅读0次

文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑
使用MNIST数据集进行分类
吴恩达机器学习笔记-应用机器学习的建议
Tensorflow学习笔记
【自用】RNA与蛋白互作分析工具（持续更新2022.6.22））
【百面机器学习】优化算法
Python深度学习（四）机器学习基础
基于深度学习的目标检测算法（一）
《陈巍学基因》笔记(35)EGFR基因靶向治疗
2018-03-13

Title.png

Background

选取的文章是发表于JCIM期刊2020年9月的文章，采用机器学习、分子对接和MD的方法发现双抑制剂。

Protocols

文章中以定量构效关系（QSAR）为基础，采用了四种机器学习的方法训练预测模型，分别是支持向量机（support vector machine, SVM）, 随机森林（random forest, RF）, 梯度提升回归树（gradient boost regression tree, GBRT）和 XGBoost （XGB）。最后得到SVM训练的模型是最稳定的，选择化合物进行酶活测试，并且又进行了分子对接和分子动力学模拟（MD）分析相互作用的关键氨基酸。

数据准备

数据库：BingdingDB、ChEMBL数据库

分子描述符计算

MOE计算得到206个二维描述符
PaDEL软件计算出MACCS、Substructure、KlekotaRoth、PubChem等12种分子指纹

注意：

选择特征描述符之前先进行预处理（低方差滤波、高相关滤波）
测试集与训练集的差异要足够大

“The final result of a logical and mathematical procedure, which transforms chemical information encoded within a symbolic representation of a molecule into a useful number or the result of some standardized experiment.” [1]

特征描述符选择

根据pIC50与其有效性之间的交互信息，将2319和2937个描述符由高到低进行排序。
四种机器学习方法中使用不同数量的描述符来寻找最优模型。
对于每个不同数量的描述符，选择产生10倍交叉验证中最高Q2下的优化参数来构建模型。
FGFR4的活性预测模型中，180个特征被分为两类：53个二维分子描述符和127种分子指纹；在EGFR活性预测模型中, 280个特征被分为两类：61个二维分子描述符和219种分子指纹。

模型构建

训练和测试集上FGFR4和EGFR活性预测模型的统计结果

SVM模型表现出了最佳性能，训练集R2train=0.94,MSEtrain=0.06，测试集R2test=0.80,MSEtest=0.16。只有SVM模型获得Q2>0.7,MSE<0.3(Q2 = 0.71, MSEcv = 0.29)，说明交互信息选择的180个描述符能够有效地预测pIC50值。

分子对接和动力学模拟

通过薛定谔软件进行分子对接，将对接后的结果使用AMBER14软件进行MD模拟，并结合MMGBSA重打分结果，对口袋中的关键残基（对结合能贡献大于1 kcal/mol）进行分析。

参考：

https://drzinph.com/computing-molecular-descriptors-intro/?preview=true&_thumbnail_id=206

网友评论

一些文献

本文标题：文章复现-基于机器学习和生物学评估发现FGFR4和EGFR双重抑

本文链接：https://www.haomeiwen.com/subject/xiomprtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！