![](https://img.haomeiwen.com/i16553654/d5f00b6642e41068.png)
Background
选取的文章是发表于JCIM期刊2020年9月的文章,采用机器学习、分子对接和MD的方法发现双抑制剂。
Protocols
文章中以定量构效关系(QSAR)为基础,采用了四种机器学习的方法训练预测模型,分别是支持向量机(support vector machine, SVM), 随机森林(random forest, RF), 梯度提升回归树(gradient boost regression tree, GBRT)和 XGBoost (XGB)。最后得到SVM训练的模型是最稳定的,选择化合物进行酶活测试,并且又进行了分子对接和分子动力学模拟(MD)分析相互作用的关键氨基酸。
数据准备
数据库:BingdingDB、ChEMBL数据库
分子描述符计算
MOE计算得到206个二维描述符
PaDEL软件计算出MACCS、Substructure、KlekotaRoth、PubChem等12种分子指纹
注意:
- 选择特征描述符之前先进行预处理(低方差滤波、高相关滤波)
- 测试集与训练集的差异要足够大
“The final result of a logical and mathematical procedure, which transforms chemical information encoded within a symbolic representation of a molecule into a useful number or the result of some standardized experiment.” [1]
特征描述符选择
- 根据pIC50与其有效性之间的交互信息,将2319和2937个描述符由高到低进行排序。
- 四种机器学习方法中使用不同数量的描述符来寻找最优模型。
- 对于每个不同数量的描述符,选择产生10倍交叉验证中最高Q2下的优化参数来构建模型。
- FGFR4的活性预测模型中,180个特征被分为两类:53个二维分子描述符和127种分子指纹;在EGFR活性预测模型中, 280个特征被分为两类:61个二维分子描述符和219种分子指纹。
模型构建
![](https://img.haomeiwen.com/i16553654/9d3c4f24d0b721b8.png)
SVM模型表现出了最佳性能,训练集R2train=0.94,MSEtrain=0.06,测试集R2test=0.80,MSEtest=0.16。只有SVM模型获得Q2>0.7,MSE<0.3(Q2 = 0.71, MSEcv = 0.29),说明交互信息选择的180个描述符能够有效地预测pIC50值。
分子对接和动力学模拟
通过薛定谔软件进行分子对接,将对接后的结果使用AMBER14软件进行MD模拟,并结合MMGBSA重打分结果,对口袋中的关键残基(对结合能贡献大于1 kcal/mol)进行分析。
参考:
网友评论