这是约翰霍普金斯大学化学与生物分子工程系 Jeffrey Gray 教授组于2017年发表的《Rosetta全原子能量函数用于大分子建模和设计》 文章,详细描述了 Rosetta 能量函数的组成、原理及计算细节,是一篇非常经典的学习文献。
1 摘要
过去十年,Rosetta 生物分子建模软件解决了一系列生物学和工程学的挑战,从低分辨率结构数据到纳米材料、蛋白质抗体和疫苗的设计。Rosetta 成功的核心是其能量函数:根据小分子和 X 射线晶体结构数据参数化的模型,用于近似与每个生物分子构象相关的能量。本文描述了最新 Rosetta 能量函数 REF15 背后的数学模型和物理概念。应用这些概念,文章解释了如何使用 Rosetta 能量来识别和分析生物分子模型的特征。最后,文章讨论了能量函数的最新进展,将应用从可溶性蛋白质扩展到膜蛋白、含有非规范氨基酸的肽、小分子、碳水化合物、核酸和其他大分子。
2 简介
蛋白质采用不同的三维构象来执行复杂的生命机制。它们的结构受到基础氨基酸序列的约束,由非共价相互作用的焓和熵之间的微妙平衡来稳定。寻求近似这些相互作用的能量函数是生物分子结构计算建模的基础。本文的目的是描述 Rosetta 大分子建模所使用的能量计算程序:文章解释了基本的物理概念、数学模型、最新进展以及在生物分子模拟中的应用。
能量函数基于 Anfinsen 的假设,即类天然蛋白质构象代表独特、低能量、热力学稳定的构象(能量最低的科普可参考该文档)。这些折叠状态位于能量图上的最小值,并且吉布斯自由能发生净有利变化,吉布斯自由能是相对于未折叠状态的焓 (Δ H ) 和熵 ( T Δ S ) 贡献的总和。为了遵循这些定律,大分子建模程序需要构建一个能够区分未折叠、折叠和天然构象的数学函数。通常,这些函数是各项的线性组合,将能量计算为不同自由度的函数。
最早的大分子能量函数是将范德华相互作用的 Lennard-Jones 势 与 谐波扭转势 结合起来,后者使用小分子振动谱中的力常数进行参数化。这些方程首先用于研究溶血素、胰蛋白酶抑制剂、和血红蛋白的结构,现在已多样化为常用的能量函数大家庭,例如 AMBER、DREIDING、OPLS、和 CHARMM。许多能量函数也依赖于新的术语和参数化。例如,更快的计算机已经能够从头进行量子计算来推导参数。 X 射线晶体学和 NMR 蛋白质结构测定方法的成熟使得能够获得 每个残基、残基间、二级结构和整体结构 的特征。此外,还有静电和溶剂的替代模型,例如 泊松-玻尔兹曼方程 的广义玻恩近似和适应不同电荷分布的可极化静电项。
Rosetta 能量函数的第一个版本是由 Simons 等人针对蛋白质开发的。最初,使用来自 PDB 数据库的统计势来描述单个残基和残基对儿的相互作用。后来,作者添加了 范德华堆积、氢键、二级结构和范德华相互作用,以提高从头结构预测的性能。这些算法用于低分辨率建模,这意味着得分仅取决于主链原子的坐标,并且侧链之间的相互作用被隐式处理。
为了实现更高分辨率的建模,在 2000 年代初期,Kuhlman 等人实现了全原子能量函数,强调折叠蛋白质中常见的原子堆积、氢键、溶剂化和蛋白质扭转角。该能量函数首先包括 Lennard-Jones 势、成对增加的隐式溶剂化模型、统计得出的静电项以及主链相关旋转异构体偏好项。不久之后,添加了几项,包括与电子结构计算一致的方向相关氢键项。传统分子动力学能量和统计扭转势的结合使 Rosetta 在结构预测和设计方面达到了几个里程碑,包括准确的从头算结构预测、热点预测、蛋白质-蛋白质对接、小分子对接和特异性重新设计以及在自然界中从未发现的从头蛋白质骨架设计和第一个计算设计的新蛋白质-蛋白质界面。
从2004年 Rohl 等人详细描述 Rosetta 能量函数以来,它已经发生了巨大的变化。它经历了重大的变化从改进氢键和溶剂化模型,到主链和旋转异构体构象的更新评估。 一路走来,这些发展使 Rosetta 能够解决新的生物分子建模问题,包括低分辨率 X 射线结构的细化和稀疏数据的使用,疫苗的设计、生物矿化肽、自组装材料和执行新功能的酶。能量函数现在也可以拟合以 kcal/mol 为单位的能量估计,而不是任意单位。此外,Rosetta 社区的成员正在积极致力于推广全原子能量函数,以用于不同的环境以及所有生物分子,包括 RNA、DNA、小分子配体、非规范氨基酸和骨架,和碳水化合物,进一步鼓励文章重新审视能量函数的基础。因此,需要对当前能量函数进行最新的描述。
在本文中,描述了新的默认能量函数,称为 Rosetta Energy Function 2015 (REF15)。文章旨在揭示严格理解所需的能量函数的物理和数学细节。此外,文章还解释了如何应用计算的能量来分析 Rosetta 模拟生成的结构模型。
低分辨率与高分辨率能量函数区别请参考:https://zhuanlan.zhihu.com/p/73035074 和 https://zhuanlan.zhihu.com/p/262211868
3 计算 Rosetta 总能量
Rosetta 能量函数近似于生物分子构象的能量。这个量称为 Δ E Total,是根据能量项 E i 的线性组合计算得出的,这些能量项是作为几何自由度θ、化学特性 aa 的函数计算的,并按每个项的权重 w 进行计算,如下方程 Eq.1 所示:
在这里,文章逐项解释 Rosetta 能量函数:
(1) 描述对原子堆积、静电和溶剂化很重要的非键合原子对之间的相互作用能量
(2) 解释用于模拟氢键和二硫键的经验势
(3) 解释用于描述蛋白质中主链和侧链扭转偏好的统计势
(4) 解释了一组不具有明确意义但对于原始结构很重要的特征
(5) 讨论如何将能量项组合成单个函数来近似生物分子的能量
各项能量的汇总和解释如表1所示:
fa_atr : 相隔距离为 d 的不同残基上的两个原子之间的吸引力能量;fa_rep : 相隔距离为 d 的不同残基上的两个原子之间的排斥能;
fa_intra_rep : 相隔距离为 d 的同一残基上两个原子之间的排斥能;
fa_sol : 不同残基中蛋白质原子之间排除隐式溶剂的高斯能;
lk_ball_wtd : 假设理想水几何形状的极性原子方向依赖的溶剂;
fa_intra_sol : 同一残基中蛋白质原子之间排除隐式溶剂的高斯能;
fa_elec : 两个相隔距离为 d 的非键合带电原子之间的相互作用能;
hbond_lr_bb : 短程氢键能量;
hbond_sr_bb : 长程氢键能量;
hbond_bb_sc : 主链-侧链氢键能量;
hbond_sc : 侧链至侧链氢键的能量;
dslf_fa13 : 二硫键能量;
rama_prepro : 给定氨基酸类型时主链 ϕ,ψ 角的概率;
p_aa_pp : 给定主链 ϕ,ψ 角时氨基酸一致概率;
fa_dun : 给定主链 ϕ,ψ 角时所选旋转异构体与自然残基类似的概率;
omega : 偏离 0° 的顺式 ω 二面角和偏离 180° 的反式 ω 二面角的主干相关罚分;
pro_close : 开放脯氨酸环和脯氨酸 ω 键合能的罚分;
yhh_planarity : 非平面酪氨酸 χ 3 二面角的正弦罚分;
ref : 氨基酸类型的参考能量;
3.1 原子对相互作用项
3.1.1 范德华力
范德华力 会随着原子对距离而变化,产生短程吸引力和排斥力。吸引力是由相邻非键合原子中电子的相互作用产生的,而排斥力的产生原因是泡利不相容原理,电子不能占据相同的轨道。为了模拟范德华相互作用,Rosetta 使用 Lennard-Jones (LJ) 势计算不同残基中原子 i 和 j 的相互作用能,给定原子半径总和σ i,j ,原子对距离d i,j 和井深的几何平均值ε i,j。原子半径和井深是根据能量模型优化的小分子液相数据得出的。如方程 Eq.2 所示
Rosetta 将函数最小值 ( d i,j = σ i,j ) 处的 LJ 势分为两个可以单独加权的分量:吸引 (fa_atr) 和排斥 ( fa_rep)。通过以这种方式分解函数,文章可以改变分量权重,而不改变最小能量距离或引入任何不连续性导数。Rosetta 中的许多构象采样方案都利用这种分开形式,通过缓慢增加排斥成分的权重来穿过崎岖的能量区域,并防止结构在采样过程中展开。
范德华排斥力( fa_rep)随着原子对的距离变化而变化。在距离较近时,原子重叠会产生强大的力,从而导致能量发生巨大变化。陡峭的 1 /𝑑i,j12 项可能会导致最小化程序以及整体结构预测和计算的性能不佳。为了缓解这个问题,当 d ≤ 0.6 σ i,j 时,文章通过替换1 /𝑑i,j12 为较柔和的线性项 。该项是使用原子特定类型参数 m i,j 和 b i,j 计算的,这些参数适合于 d = 0.6 σ i,j 时的导数连续性。在线性项之后,函数平滑地过渡到 6-12 形式直到 d i,j = σ,达到零并保持数值为零。如方程 Eq.3 和 Fig1A所示。
Rosetta 还包括排斥力的残基内版本 (fa_intra_rep),其函数形式与 fa_rep 项相同 (Eq.3)。文章包括此项是因为基于基于之前的知识,旋转异构体能量(fa_dun)低估了残基内碰撞。
当 di,j = 0 时,范德华吸引力 (fa_atr) 的值为 − ε i,j,然后随着距离的增加过渡到 6-12 势,如方程 Eq.4 和 Fig1B。为了提升速度,文章将 LJ 项截断为超过 6.0 Å 时范德华力为 0。为了避免导数不连续,文章在 4.5 Å 后使用三次多项式函数 fpoly ( d i,j ) 将标准 Lennard-Jones 函数形式平滑过渡到零。这些平滑导数对于确保在基于梯度最小化的构象采样过程中,能量拐点处的结构特征分布中不会累积碰撞。
所有三项均乘以连接权重 𝑤i,jconn 以排除大的排斥能量贡献,如方程 Eq.5。该权重对于在模拟过程中不形成或破坏共价键的分子力场是常见的。Rosetta 使用四个化学键作为“交叉”分离 𝑤i,jconn 从 0 到 1 的转变(而不是传统力场使用的三个化学键),以限制扭转势而导致的重复计算的影响。
方程Eq.2 与改进后 LJ 势(方程 Eq.3 和 Eq.4)之间的比较,如 Fig1.A 和 Fig1.B 所示。
3.1.2 静电力
非键合静电力由完全带电和部分带电的原子之间的相互作用产生。为了评估这些相互作用,Rosetta 使用库仑定律,其中部分电荷最初取自 CHARMM,并通过组优化方案进行调整,如表S3所示。库仑定律是一个成对项,通常用原子 i 和 j 之间的距离 d i,j 、介电常数ε、每个原子q i 和 q j 的部分原子电荷以及库仑常数C0 = 322Å kcal/mol e -2(其中e为基本电荷)组成。如方程 Eq.6所示。
为了近似生物分子中的静电相互作用,文章修改介电常数方程以表现蛋白质核心和暴露于溶剂的表面之间的差异。具体来说,文章将方程 Eq.6 中的介电常数 ε 替换为S型函数 ε(di,j),当原子对距离在 0 Å 和 4 Å 之间时,由 εcore = 6 增加到 εsolvent = 80 。如方程Eq.7 和 Eq.8 所示。
与范德华项一样,文章进行了几种启发式近似,以使该计算适用于生物分子的模拟。为了避免短距离内的强排斥力,当 di,j < 1.45Å 时,文章用常数 Eelec ( dmin ) 代替陡峭的梯度。接下来,由于距离依赖的的介电假设会导致远程静电减弱,为了提升速度,文章将电势分隔为 dmax = 5.5 Å,并通过减去1 /𝑑max2 项将电势在 dmax 处移至零。如方程Eq.9所示。
文章使用三次多项式,𝑓polyelec,low(di,j) 和 𝑓polyelec,high(di,j) 在传统形式和新的调整之间进行平滑,同时避免衍生不连续性,能量还乘以连接权重 𝑤i,jconn(Eq.5),如方程Eq.10所示。最终修改后的静电力方程与标准形式对比 如Fig1C所示。
3.1.3 溶剂化
天然蛋白构象会最小可能化疏水侧链暴露于周围极性溶剂的概率。但是,在计算上详细模拟溶剂和蛋白质原子之间的所有相互是非常耗时的。相反,Rosetta 根据 Lazaridis—Karplus (LK) implicit Gaussian exclusion 模型将溶剂表示为bulk 水。Rosetta 的溶剂化模型有两个组成部分:(1) isotropic 溶剂化能,称为 fa_sol ,它假设大量水均匀分布在原子周围(Fig2A) ; (2) unisotropic 溶剂化能,称为 lk_ball_wtd ,它代表了形成溶剂化外壳的极性原子附近的特殊水(Fig2B)。
isotropic(Lazaridis-Karpus)模型基于函数 fdesolv,其描述当邻近原子 j 接近时使原子 i 去溶剂化(去除接触水)所需的能量。在 Rosetta 中,文章排除了 Lazaridis-Karplus 的 Δ Gref 项,因为文章实现了自己的参考能量(稍后讨论)。原子对相互作用的能量随分隔距离 di,j、实验确定的气相到液相的转移自由能 Δ G free、总原子半径 σi,j、相关长度 λ和去溶剂化原子的原子体积 Vj 等参数而变化。如方程Eq.11所示。
在短距离处,fa_rep 防止了原子间的重叠;然而,许多方法会简单降低权重或者不使用 fa_rep 项。为了避免在缺失 fa_rep 的场景下 fdesolv 函数鼓励原子对的重叠 ,当范德华范围重叠 ( d i,j = σ i,j ) 时,文章在距离较近时平滑地将函数值增加到常数。在距离比较大时,函数值逐渐趋近于零;因此,为了提高速度,文章将函数在 6.0 Å 处截断。文章还使用距离相关的三次多项式𝑓polysolv,low(di,j) 和 𝑓polysolv,high(di,j) 和常数c0 = 0.3 Å 和c1 = 0.2 Å 在短距离和长距离的常数之间进行转换。总体去溶剂化函数如方程式Eq.12 所示。
总 isotropic 溶剂化能量 fa_sol 计算为包括原子 j 去溶剂化原子 i 的总和,反之亦然,并按先前定义的连接权重进行缩放。如方程Eq.13所示。
Rosetta 还包括 isotropic 溶剂化能的残基内版本 fa_intra_sol,其函数形式与 fa_sol 项的方程相同,如Eq.13所示。
最近的一项创新 (2016) 是添加了能量项 lk_ball_wtd 来模拟极性原子方向相关的溶剂化。该 anisotropic 模型增加了封闭水可能形成氢键相互作用位点附近的极性原子的去溶剂化的惩罚。对于极性原子,文章减去部分 isotropic 能量,然后添加 anisotropic 能量以说明去溶剂化原子相对于假设水的位置。
为了计算 anisotropic 能量,文章首先计算原子 i 周围 𝒲 i = { νi 1 , νi 2 ,…} 的理想水位点集合。该集合包含 1 到 3 个水位点,具体取决于原子 i 的原子类型。每个位点距原子 i 的距离为 2.65 Å ,并具有最佳氢键几何形状,文章考虑去溶剂化原子 j 与每个水的潜在重叠。重叠被认为可以忽略不计,直到去溶剂化原子 j 的范德华球体(半径σ j )接触位置 k 处的水的范德华球体(半径σ w),然后该项在部分区域上平滑增加,重叠约 0.5 Å。因此,对于每个水结合位点 k,坐标为νj,k,文章计算遮挡测量 𝑑k2 表示假设的水和去溶剂化原子j之间的 gap ,使用偏移 Ω = 3.7 Å 2为表提供上升缓冲区。如Eq.14所示。
接下来,文章通过计算对数平均值 𝒲 i 中的所有水结合位点的最小值 𝑑k2 ,如Eq.15所示。
然后, 𝑑min2 和 Ω 用于计算阻尼函数 flkfrac,当去溶剂化原子与任何优选水位点至少有范德华距离时,该函数从零变化到当去溶剂化原子与水位点重叠超过 1 时。如Eq.16 所示。
文章通过阻尼函数 flkfrac 和通常约为 0.7的原子类型权重 waniso 缩放去溶剂化函数 gdesolv 来计算去溶剂化极性原子 Elk_ball 的 anisotropic 能量(方程Eq.17)。减去的 anisotropic 溶剂化能的量是gdesolv乘以wiso,其中wiso是原子类型比重,通常约为 0.3(方程Eq.18) 。然后将各向同性和各向异性分量相加,得到新的去溶剂化函数hdesolv(方程Eq.19)。
像 fa_sol 一样 ,原子j去溶剂化原子 i 的能量相加得到总 lk_ball_wtd 能量(方程Eq.20),但只计算定义为集合的极性氢键重原子 (O,N) 的去溶剂化℘。Fig2C-E 显示了 fa_sol 和 lk_ball 项的对比
3.1.4 氢键
氢键 是当亲核重原子向极性氢提供电子密度时形成的部分共价相互作用。在短距离 (< 2.5 Å) 下,它们表现出最大化轨道重叠的几何形状。Rosetta使用 hbond 项与 fa_elec 一同计算氢键的能量。文章使用Top8000高精度蛋白晶体数据集,模拟了蛋白质内极性接触,并使用自适应密度估计推导了函数模型。氢键能的计算函数如方程Eq.21 所示,其中f(x) (方程Eq.22)为平滑函数,以避免导数不连续并确保考虑边缘氢键情况。
从四个维度函数评估所有氢供体 H 和受体 A :
(1) 供体和受体之间的距离 d HA
(2) 供体、受体和供体重原子形成的角度 θ AHD
(3) 受体的母原子B、受主和供体形成的角度 θ BAH
(4)由供体、受体和两个后续母原子 B和 B2 形成的扭矩 ϕB2BAH
3.1.5 二硫键
二硫键是连接半胱氨酸残基中硫原子的共价相互作用。Rosetta 使用名为 dslf_fa13 的模型计算这些相互作用的能量。该模型是通过 Top8000 中的蛋白质内二硫键并使用核密度估计来识别特征而得出的。总二硫键能量计算分为六个自由度的函数,映射到四个分量能量。如图Fig4和方程Eq.23所示。
4 蛋白主链和侧链扭转项
Rosetta 评估扭转空间中的主链和侧链构象,以大大缩小搜索范围并提高计算效率。传统的分子力学力场用正弦和余弦来描述扭转能量,这些能量在非结构化区域重现主链二面角分布方面表现不佳。相反,Rosetta 使用了几个基于快速近似量子效应的扭转角项,能更准确地模拟蛋白质主链和侧链的构象。
拉氏构象图 为了评估主链上 ϕ 和 ψ 的角度,文章定义了一个能量函数 rama_prepro ,依据 3,985 个蛋白质链的氨基酸残基扭转角度,其中分辨率 ≤ 1.8 Å,R 因子 ≤ 0.22 且序列同一性 ≤ 50% 。脯氨酸之前的残基也被单独处理,因为它们由于与 脯氨酸 的Cδ的空间相互作用而表现出不同的ϕ,ψ偏好(方程Eq.24)。然后 ,通过逆玻尔兹曼关系将概率转换为网格点处的能量,计算称为 rama_prepro 的能量(能量越低,出现的概率越高),如图Fig5。
主链设计项 Rosetta 还计算在给定现有ϕ,ψ主链构象的情况下放置特定氨基酸侧链的概率。这个函数,称为 p_aa_pp 代表观察某种氨基酸残基替换为其他 19 种规范氨基酸的倾向。基于知识的倾向P (aa| ϕ,ψ ) 和P (ϕ,ψ|aa )遵循贝叶斯定理。
侧链构象 蛋白质侧链主要由能垒分隔的 旋转异构体 占据。为了评估旋转异构体构象,Rosetta 从 2010 主链依赖的旋转异构体库 中得出旋转异构体的概率,该库包含了每个 χ 角度的旋转异构体频率、平均值和标准差及氨基酸类型。该概率由三个部分组成:(1) 给定主链二面角时特定旋转异构体出现的概率 (2) 给定旋转异构体时特定χ角度出现的概率(3) 终端 χ 角度分布的概率。如方程Eq.27所示。
2010 旋转异构体库区分为 rotameric 和 non-rotameric 扭转。当定义扭转的四个原子中的第三个是 sp3杂化时,扭转是 rotameric(即优选〜60°,〜180°和〜−60°,井之间具有陡峭的能量势垒),如果最后一个 χ 扭转是 rotameric,概率p ( χT | ϕ,ψ ,rot,aa) 固定为 1。另一方面,如果第三个原子是 sp2 杂化,则是 non-rotameric。具有旋转异构和非旋转异构二面角的半旋转异构氨基酸类别包括八种氨基酸:Asp、Asn、Gln、Glu、His、Phe、Tyr 和 Trp。
每个旋转异构体p (rot| ϕ,ψ ,aa)的概率与上述 Ramachandran 图来源自相同的数据集。使用自适应核密度估计来确定概率,并使用相同的数据集来估计旋转异构体中每个χ二面角的平均值(μ χ k)和标准差(σ χ k),作为主干二面角的函数,使文章能够计算使用方程式计算χ值的概率。如方程Eq.28所示。
fa_dun的完整形式由方程Eq.29 所示,给出了所有残差 r 的汇总。旋转异构体和半旋转异构体模型之间的差异如Fig6所示。
5 特殊扭转项
肽键二面角ω 大部分保持固定在顺式或反式构象中,并取决于主链 ϕ 和 ψ 角度。由于主链氮上的电子对向亲电羰基碳提供电子密度,因此肽键具有部分双键特征。为了模拟这种旋转障碍,Rosetta 实施了一个依赖于主干的谐波罚分,顺式的中心值接近 0°,反式的中心值接近 180°(如Fig7A所示)。这种能量称为 omega,是针对生物分子中的所有肽键进行评估的(如方程Eq.30所示)。脯氨酸和酪氨酸的侧链由于都含有大的闭环,能量函数进行了改进,用 pro_close 和 yhh_planarity 进行表示(如Fig7 B C 表示)。
6 蛋白质设计项
设计参考能量 上述能量项足以将不同的蛋白质构象与固定序列进行比较。然而,蛋白质设计模拟比较了给定特殊结构的不同氨基酸序列的相对稳定性,以识别在折叠和未折叠状态之间表现出较大自由能差异的模型。详细计算未折叠状态的自由能计算成本很高且容易出错。因此,Rosetta 使用 ref 作为未折叠态参考能量来近似未折叠态的相对能量。
Rosetta 将参考能量计算为各个常数未折叠状态参考能量的总和。 每个氨基酸 aai 的值为Δ𝐺iref。Δ𝐺iref 是通过搜索最大化天然序列恢复的值获得的经验优化值。如方程Eq.36所示。
7 能量项合并
Rosetta 能量函数使用加权线性组合所有能量项来获得近似的自由能。在过去,Rosette能量函数不断调整权重和参数来平衡每一项的能量贡献。如表1所示。8 能量函数的单位
最初,Rosetta 能量以通用单位表示,称为 Rosetta Energy Unit(REU)。做出这一选择是因为一些原始的 Rosetta 能量项没有用实验数据进行校准,并且统计势的使用使能量的解释变得复杂。最新的能量函数 ( REF15 ) 根据高分辨率蛋白质结构和以 kcal/mol 为单位测量的小分子热力学参数进行参数化。优化数据显示实验数据与 Rosetta 预测值之间存在很强的相关性(突变后的ΔΔG ,R = 0.994;小分子 Δ Hvap;见FigS1)。因此,Rosetta 能量现在更接近以 kcal/mol 为单位的能量。因此,正如 OPLS、CHARMM 和 AMBER 等分子力场的标准做法一样,文章现在也用 kcal/mol 来表示能量。
9 能量函数的应用:使用单个能量项来分析 Rosetta 模型
Rosetta 能量项是控制蛋白质结构、稳定性和关联性的物理数学模型。因此,整体结构的能量分解可以揭示有关生物分子模型的重要细节。现在文章已经介绍了每个能量项的详细信息,文章这里演示如何将能量应用于结构模型的详细解释。这里讨论两种常见的结构计算:(1) 估计突变的自由能变化 (ΔΔ G );(2) 模拟蛋白质-蛋白质界面的结构
突变的ΔΔ G 第一个例子是如何使用 Rosetta 来估计和解释热力学参数。这里提供了与 HIV-1 蛋白酶结合的 RT-RH 衍生肽中 T193V 突变 ΔΔ G的计算示例(PDB编号 1kjg, 见Fig8A)。
Rosetta 计算出 T193V 突变的 ΔΔG 为-4.95 kcal/mol,实验测得 ΔΔG 为 -1.11 kcal/mol。实验和计算都表明 T193V 正在稳定。然而,最终的数字本身并不能揭示哪些特征会导致稳定。为了进行更详细的调查,文章使用了 PyRosetta 中可用的各种分析工具来确定对总 ΔΔG的重要能量贡献。首先,文章将 ΔΔG分解为各个能量项,并观察有利和不利的项的平衡,其总和为 Fig8B。为了分解最有利于稳定的项 Δfa_sol,文章使用 print_residue_pair_energies 函数来识别与突变位点(在本例中为残基 4)相互作用的残基,以产生非零残基对溶剂化能。通过结果表发现 HIV 蛋白酶上的残基 V27、I45、G46 和 I80 在突变位点周围形成了一个疏水口袋,它和肽上的残基 F194 对溶剂化能做出了重要的贡献(见Fig8C )。
文章使用 print_atom_pair_energy_table 函数成蛋白酶残基 5、27、45、46 和 80 相对于肽段残基 193 处的苏氨酸对比缬氨酸的原子对能量表,进一步在原子水平上研究了能量变化的原因(表3 以80号残基为例)。文章发现苏氨酸上的极性羟基被缬氨酸上的非极性烷基特异性取代可以稳定疏水蛋白酶口袋中的肽。这一结果与化学原理一致,并证明了分解总能量可以深入了解突变结构的特征。
蛋白-蛋白docking 第二个例子展示了如何使用一组模型集合的 Rosetta 能量函数来区分不同模型并研究蛋白质与蛋白质界面的特征。下面,文章研究了西尼罗河病毒包膜蛋白和中和抗体的对接模型(PDB 编号1ztx,见Fig9A)。
为了评估对接模型,文章计算了每个模型界面的残基与已知结构之间的能量变化和均方根偏差(RMS)之间的函数。这里界面残基的定义是 C β原子与另一个对接伴侣中残基的C β距离小于 8.0 Å的残基。能量与 RMS 值的关系图称为漏斗图,旨在模拟蛋白质折叠和结合的漏斗状能量景观。
与前面的示例一样,文章分解能量以产生有关界面相互作用性质的信息。在这里,文章观察到以下能量项在界面形成时相对于未结合态的有显著变化: fa_atr, fa_rep, fa_sol, lk_ball_wtd, fa_elec, hbond_lr_bb, hbond_bb_sc 和 hbond_sc (见Fig9B)。界面形成时 Lennard-Jones 能量的变化是由于在界面处引入了原子-原子的联系。随着更多原子在天然构象附近接触 (RMS→0),有利的吸引能量 ( fa_atr) 减少,而不利的排斥能量 (Δ fa_rep) 增加。各 isotropic 溶剂化能 ( fa_sol) 的变化为正(不利),表明在界面形成时,极性残基被埋藏。平衡去溶剂化损失,由于界面处形成极性接触,极性溶剂化能 ( lk_ball_wtd) 和静电 ( fa_elec)的变化为负。最后,三个氢键能( hbond_lr_bb,hbond_bb_sc 和 hbond_sc)反映了界面处主链-主链、主链-侧链和侧链-侧链氢键的形成。
10 展望
Rosetta 能量函数代表了作者对模拟自然界中控制生物分子结构、稳定性和关联的规则的持续追求。文章也讨论了 Rosetta 能量函数计算发展所面临的重大挑战。
10.1 模拟蛋白质以外的生物分子
Rosetta 能量函数最初是为了预测和设计蛋白质结构而开发的。这个目标源于能量函数对源自蛋白质 X 射线晶体结构统计势的依赖。如今,Rosetta 社区还追求预测其他生物分子(如糖蛋白和 RNA)的相互作用和结构的目标。因此,一个积极的研究重点是推广所有生物分子的全原子能量函数。许多物理衍生能量项(例如范德华)已经与非规范氨基酸和非蛋白质生物分子兼容。Rosetta 的几个统计势通过量子力学计算验证,以评估非蛋白质模型,如表4所示。
10.2 捕获细胞内和细胞外环境
Rosetta 传统上使用 Lazaridis-Karplus (LK) 模型对蛋白质周围的溶剂进行建模,该模型假设溶剂环境由纯水组成。相比之下,生物学在各种受 pH、氧化还原电位、温度、溶剂粘度、离液剂、亲液剂和极化率影响的条件下运行。因此,对细胞内和细胞外环境的更多细节进行建模将使 Rosetta 能够识别在不同生物环境中重要的结构。
目前,Rosetta 包括两组能量术语来模拟替代环境。Kilambi 等人实施了一种计算 pH 值的方法,通过包含一个称为 e_pH 的术语来计算给定用户指定pH值的蛋白质侧链质子化状态的可能性(如表5所示)。
10.3 能源模型的起源:自上而下与自下而上模型的发展
传统上,能量函数是使用自下而上的方法开发的:实验观测值作为构建模块来参数化基于物理的公式。强大的优化技术和人工智能的出现最近增强了自上而下的类别,其中使用数值方法来导出模型和/或参数。
自上而下的方法在提高生物分子建模的准确性方面具有巨大的潜力,因为可以改变更多参数,并且可以通过更多基准来最小化目标函数。这些方法也带来了新的挑战。对于任何计算机衍生的模型,都存在过度拟合的风险。
11 参考资料
[1] Rebecca, et al. "The Rosetta All-Atom Energy Function for Macromolecular Modeling and Design." Journal of Chemical Theory & Computation (2017).
[2] https://zhuanlan.zhihu.com/p/262211868
[3] https://zhuanlan.zhihu.com/p/73035074
网友评论