美文网首页
深度学习在药物亲和力开发中的应用

深度学习在药物亲和力开发中的应用

作者: 概普生信 | 来源:发表于2021-06-28 09:38 被阅读0次

今天和大家分享一篇发表在JCIM 上的文献,是利用3D-CNNs和SG-CNNs深度融合模型提高蛋白配体结合亲和力预测精度。由于工作原因,用到机器学习来预测蛋白-配体复合物的某种特定性质,因此比较关注构建模型方法,写的会详细些,尤其是3D结构怎么作为机器学习模型的输入,一直是我困惑的点。

下面为大家解读这篇文献:

准确预测小分子和靶蛋白之间的结合亲和力是药物开发的一个挑战。深度学习模型已经被提出作为替代基于物理的自由能评分函数。深度学习方法的好处是可以直接从原子表示学习交互规则,而不依赖于人工获得特征表示这样可能无法获的结合机理。有两种基于3D结构的深度学习方法:3D卷积神经网络(3D-CNN)、空间图卷积神经网络(SG-CNN)。3D-CNN使用3D立体像素表示原子,通过原子在3D立体像素网格中的相对位置隐式解释原子间的成对关系,但除了定义最小原子分辨率外,并没有预先决定代替哪个原子间的相互作用。因此这必须学习更多的参数来表示3D立体像素。SG-CNN使用显示的距离阈值来确定在成对的相互作用中考虑哪对原子(例如,共价的、非共价的),SG-CNN的优点是模型需要很少的参数。3D-CNN和SG-CNN各有优劣,这两种方法还没有被直接比较或与传统的打分函数进行比较。融合模型的好处在于可能将互补的特征表示结合在一起,从而建立一种更加准确的模型。我们引入了一种融合模型(如下图所示),旨在结合训练3D-CNN和SG-CNN模型,每个模型都期望捕获原子不同的特征表示。

方法

数据:用于模型训练、验证和测试的数据集均来自PDBbind,PDBbind数据集是蛋白质数据库(PDB)的一个精选自己,用于校准基于物理的打分函数以及基于机器学习的评分功能。图1所示是一个数据输入形式。

图1 PDBbind数据库中配体和受体的例子PDBID:1q63

预处理:在提取每个深度学习模型各自的三维表示形式之前,对PDBbind数据库以蛋白质数据库(.pdb)格式提供的结合复杂结构采用一种通用的预处理结构。该过程与Pafnucy方法非常相似,支持可重复和可比的管道。

所有的蛋白-配体复合物都被质子化,标准残基的电荷使用UCSF Chimera和AMBER ff14SB计算,非标准残基使用AM1-BCC计算电荷。对于晶体结构数据,没有采用其他处理步骤。在对接结构中,水分子在对接过程中被去除。这个协议为每个蛋白质口袋生成一个Mol2(.Mol2)文件。

特征提取:基于3D结构的深度学习模型的输入采用了一个通用的原子表示。我们只考虑每种生物结构中的重原子和杂原子(例如,来自结晶水分子的氧)。

元素类型:B、C、N、O、P、S、Se、卤素或金属元素进行独热编码

原子杂化状态(1,2或3)

重原子键数(即重原子价)

与其他杂原子的键数

结构特性:疏水、芳香、受体、供体和环的位向量

局部电荷

分子类型表示蛋白原子和配体原子(-1代表蛋白,1代表配体)

范德华半径

使用OpenBabel cheminformatic 工具(version 2.4.1) 提取所有结合复合物的特征表示。最后,所有原子坐标以每个配体为中心,以产生结合复合体的空间表示。

3D-CNN

3D-CNNs已被广泛应用于各种计算机视觉应用,如医学诊断中的三维图像分隔和视频认证/功能识别。最近,一些3D-CNN方法被提出用于药物发现领域的结合亲和力预测和其他蛋白-配体相互作用中。这些方法被设计为使用3D立体表示捕获3D原子特征和隐式原子交互,其中原子及其特征被像素化到3D立体像素网格中。

本篇中3D-CNN由5个卷积层和2个残差块组成,如图2(top)所示。ResNet中提出的剩余短链接,允许网络在没有非线性激活的情况下通过梯度到下一层。研究结果表明3D-CNN中的两个残差块提高了预测性能。此外,单个卷积层应用批标准化,对小批处理中的每个特征输出进行标准化。我们使用非线性ReLU激活。

图2 结合3D-CNN和SG-CNN提出的中层融合模型

SG-CNN

基于图的深度学习方法已应用于生化数据模型,特别是在分子性质预测等监督学习任务中显示出了良好的结果。分子图通常认为原子是节点,键是节点之间的边。原子卷积神经网络(ACNN)允许基于欧几里得距离为每个原子指定“局部”邻域,有效地放宽了在蛋白-配体结合复合物地图中形成边地共价要求。PotentialNet架构扩展了这一想法,允许任意数量地边类型,并应用基于图序列神经网络节点信息传播技术,以允许深度学习模型学习二维图表示中的非共价交互信息。对于分子复合物,我们采用空间图形表示,其中给定复合物中的原子被认为是这个图形表示中的节点。我们使用PyTorch Geometric(PyG)实现SGCNN。

融合模型

融合模型受益于互补的多特征表示,而且通过减少每个特征表示或模态的不确定性来提高鲁棒性。因此我们提出的融合神经网络来组合两个独立训练模型(3D-CNN和SG-CNN)的特征表示。我们采用了中后期融合方法,该融合模型是首次尝试结合多个异构的3D模型表示来完成蛋白-配体结合亲和力预测的任务。

图2所提出的中期融合模型结合了3D-CNN和SG-CNN的特征。对于融合模型中的输入特征,我们分别使用了3D-CNN和SG-CNN的第二层和第四层输出激活。然后每个输入特征通过一个全连接层,输出于原始输入特征进行跨层连接,再进入下一个全连接层,我们观察到,这种连接优于简单叠加和没有任何连接的模型。我们实现了几种可选的中层融合结构:1) 添加而不是连接特征,2) 在完全连接的层中不同数量的激活,3) 不使用跳过连接,4) 融合两个不同的3D-CNNs,每个3D-CNN用不同的像素网格训练,以实现多尺度特征提取。

除了中期融合模型外,我们还采用了后期融合方法,这种融合是通过平均CNN模型的最终预测来实现。这种方法简单,但是可以有效地结合多种模型预测。

基于结构的聚类

通过结构相似性对PDBbind中的复合物进行聚类,以探索模型预测是否依赖于蛋白口袋特性,以及模型预测是否具有推广到其他新特性的蛋白口袋上。在蛋白水平上使用LGA对结构进行聚类,并选择特定的局部亚结构来代表配体结合位点。我们选择12Å半径不仅可以捕获一组离配体很近的残留物,还可以从局部环境中获取构象信息,以帮助检测口袋之间的相似性,即使观察到的配体大小不同。为了加强对功能残基的检测,我们考虑了4Å内发现的蛋白-配体界面残基的附加信息。

结果和讨论

在评估融合模型时,我们提出以下问题来确定其有效性:1) 两个CNN模型能提供互补的信息?2) 融合模型是否整合了从两个CNN模型中提取的信息,并改善了对单个模型的预测精度?3) 当对接的蛋白不是来自晶体结构时,机器学习能否保持预测准确性?4) 机器学习模型是否于计算成本更高的MM/GBSA的打分功能一样准确?为了解决这些问题,我们使用一个在计算打分函数发展中一个通用的测试集:PDBbind 2016核心集。用不同的随机种子分别训练融合模型100次,以检测预测的可变性。一旦在2016年的数据集上对模型进行了训练和测试,最终模型将在2019年保留集上进一步评估,以测试融合方法对新的蛋白质目标的检测有效性。为此,我们采用了如上所述的时间分割与基于三维结构的聚类相结合的方法。

在PDBbind-2016晶体结构上预测性能

表1总结了模型在PDBbind 2016数据集晶体结构的性能。我们指考虑了PDBbind上的通用和精炼数据集。虽然采用更大的通用数据集进行训练可以提高性能,但它的缺点是结合亲和力的噪声更大,而且包含低分辨率的3D结构。表1说明SG-CNN模型在通用和精炼集上的训练精度高于其他的SG-CNN训练模型;3D-CNN模型在精炼集上的训练模型准确度高于其他训练模型;中期融合模型的精度优于单个模型。后期融合模型也获得了比单个模型更高的精度,而且中后期融合模型的性能差异很小。

为了测试融合模型是否从蛋白-配体的相互作用中学习,我们使用中期融合模型进行了另外两个实验,每一个实验都仅使用配体或口袋结构进行评估。结果表明,蛋白-配体相互作用的特征对融合模型预测结合亲和力的预测是必不可少的。表2表明融合模型的Pearson相关系数明显高于MM-GBSA评分(0.803 vs 0.647)。

表1 PDBbind 2016数据集上预测模型性能

Modelr^2Pearson rSpearman rMAERMSE

SG-CNN(R)0.4240.6660.6471.3211.65

SG-CNN(G)0.5190.7470.7461.1941.508

SG-CNN(R+G)0.60.7820.7661.0841.375

3D-CNN(R)0.5230.7230.7161.1641.501

3D-CNN(G)0.420.6490.6581.2941.655

3D-CNN(R+G)0.3970.6770.6571.3341.688

late fusion0.6280.8080.8031.0441.326

midlevel fusion0.6380.8100.8071.0191.308

Pafnucy0.781.131.42

KDEEP0.820.821.27

fusion(ligand only)-0.9160.4850.4922.4953.008

fusion(pocket only)-2.380.5010.4853.4853.995

注:将所提出的融合方法与单独的和现有的模型进行比较。R: 精炼集(refined set) G: 通用集(general set)。粗体表示每列中度量的最佳值。

表2 比较中期融合模型和基于物理的打分功能

MethodPeason rSpearman rMAERMSE

Vina0.5990.605

MM/GBSA0.6470.649

Midlevel fusion0.8030.7971.0351.327

表3 PDBbind 2016 核心集上-对接模式的性能测试

modelPeason rSpearman rMAERMSE

SG-CNN0.6990.6771.2771.576

3D-CNN0.5370.5182.0582.558

Vina0.6160.618

MM-GBSA0.6290.641

midlevel fusion0.7020.6721.4871.874

late fusion0.7120.6931.4981.871

在PDBbind-2016 对接构象预测模型性能

评估已知配体-蛋白结构的模型预测的准确性有助与评估模型。实际上,配体-蛋白的准确对接构象是不知道的,评分函数将评估噪声较大和容易出错的对接构象。为了探索使用这种噪声数据的效果,使用机器学习模型对前10个Vina构象进行评分,并报告257个测试复合物中每个复合物的平均亲和力,其中MM/GBSA评分计算已完成。晶体结构中的水分子被移除,因为这一信息可以人为地限制对接构象并提高模型性能。表3 是对对接构象的预测性能比较,得出融合模型的皮尔逊相关系数仍然高于计算代价昂贵的MM/GBSA和Vina分数(0.712 vs 0.629 vs 0.616)。

基于结构的验证集

在给出新目标的测试用例中评估模型的预测性能是很重要的,研究中2019保留集就是解决这个问题的。保留集的预测性能结果如表4所示。

表4 PDBbind 2019验证集的模型预测性能

ModelPeason rSpearman rMAERMSE

SG-CNN0.5150.5111.1521.45

3D-CNN0.4270.4061.2111.488

late fusion0.5390.5251.0621.326

midlevel fusion0.5450.5321.0741.338

KDEEP0.4870.4781.1351.424

Pafnucy0.5280.5281.1061.381

正如我们对PDBbind 2016核心集的评估一样,我们也对使用对接构象而不是晶体构象的模型性能感兴趣,因为在实际中晶体构象是未知的。此外,在这种情况下,呈现给模型的结构和训练集有明显的不同。这次验证的结果如表5所示。后期融合(max)和中期融合(max)可以与默认的融合评分进行比较,默认的融合评分采用所有构象的平均得分。为了测试融合模型预测正确对接构象的敏感度,我们将对接构象分为三组:RMSD小于2Å(认为是正确构象),RMSD在2到4Å之间(构象正确度比较模糊),RMSD大于4Å(对接构象错误)。结果表明皮尔逊相关系数从0.535降低到0.417说明对接构象的正确度影响预测模型的准确性和三维原子结构的预测值。

表5 基于结构的2019保留集使用对接构象的预测性能

ModelPeason rSpearman rMAERMSE

SG-CNN0.4830.4991.1581.44

3D-CNN0.4550.4481.2361.545

late fusion0.530.531.1071.375

midlevel fusion0.5140.5131.1111.372

late fusion(max)0.5070.5111.2761.549

midlevel fusion(max)0.4710.4761.3011.572

Vina0.4770.494

MM/GBSA0.4150.433

fusion(d <=2)< span="">0.5350.5291.0881.357

fusion(2<d <= 4)0.4750.4471.0951.348

fusion(4<d)< span=""></d)<>0.4170.3971.2451.535

注 d代表晶体结构与对接位之间所有原子对的RMSD

MAE如图3所示,在某些情况下显示超过了2log单位的不同错误,这表明模型预测的准确性随蛋白种类的不同而不同。图4显示了当使用所有构象的平均预测评分、Vina评分函数和MM/GBSA时,给出融合模型的受试者工作特征曲线(ROC)。虽然在此设置下的所有方法都取得了比随机分类更好的性能,但与其他方法相比,Vina评分函数在曲线下面积(AUC)方面表现较差。虽然MM/GBSA和Fusion AUC更接近,Fusion更高效,可以用更少的计算资源筛选更大的复合物库。

图3 基于口袋和配体位置的标准偏差组(y轴)和MAE(x-轴)。MAE是机器学习模型的显示。每个聚类显示了细化训练集中复合物的数量(灰色)

图4 利用所提出的融合模型、Vina和MM/GBSA评分方法对基于结构的验证集上的二元分类任务的结果进行分析。MM/PBSA的结果是基于214个复合物,可以计算出一个分数

结论:

研究结果表明3D-CNN和SG-CNN两个三维模型为许多复合物提供了互补的预测。融合模型的预测性能表明与单独的模型相比,融合模型的总体性能有所提高。在预测2016年数据集中已识别结合口袋中的新配体以及预测2019年保留集中的新口袋时,机器学习预测准确度的鲁棒性很强,而且随着实验数据量的增加,预测精度也会不断提高。融合模型会提供一个相对准确、更有效的计算来替代MM/GBSA。

软件是开源的,可从github上下载:https://github.com/llnl/fast

模型参数:ftp://gdo-bioinformatics.ucllnl.org/

fast/pdbbind2016_model_checkpoints/

机器学习思路  生信人

相关文章

  • 深度学习在药物亲和力开发中的应用

    今天和大家分享一篇发表在JCIM 上的文献,是利用3D-CNNs和SG-CNNs深度融合模型提高蛋白配体结合亲和力...

  • Deep-learning

    图卷积网络在药物研发中的应用综述 尽管深度学习在很多领域在过去的几年取得了一定的成功,但是在分子信息和药物发现领域...

  • 深度学习硬件架构简述

    深度学习具有极高的计算需求, 要对深度学习应用进行开发并商业化,就需要找到合适的硬件配置。目前,在开发用于深度学习...

  • 药物领域中深度学习的应用

    前言 深度学习算法在很多领域已经可以成功落地,并且效果很好,例如以卷积神经网络为例,该算法以及衍生的系列算法在图像...

  • 2018深度学习在个性化推荐中的应用

    深度学习在个性化推荐中的应用 结论 得益于深度学习强大的表示能力,目前深度学习在推荐系统中需要对用户与物品进行表示...

  • Machine Learning Mastery 博客文章翻译:

    目录 Keras 中神经网络模型的 5 步生命周期 在 Python 迷你课程中应用深度学习 Keras 深度学习...

  • 线性回归的实现

    选自 李沐 《动手学深度学习》 第三章。 3.3 线性回归的简洁实现 随着深度学习框架的发展,开发深度学习应用变得...

  • ubuntu命令以及深度学习的应用好文分享

    深度学习在图像处理中的应用探讨 20个令人惊叹的深度学习应用(Demo+Paper+Code) 神经网络理解和入...

  • 深度学习在金融中的应用

    深度学习在金融中的应用 1.简介 股票市场预测,算法交易,风控授权,用户定位,资产定价和衍生品市场,机器学习的研究...

  • 深度学习在阅读中的应用

    昨天听了深度学习的讲座。王蔷老师给了系统的理论阐释,另有几位老师展示了有关深度学习的课堂教学设计和课堂实录,给我的...

网友评论

      本文标题:深度学习在药物亲和力开发中的应用

      本文链接:https://www.haomeiwen.com/subject/mqfqultx.html