Nat Meth | 首个蛋白,核酸和大分子复合物3D结构匹配通用平台
原创 风不止步 图灵基因 2022-09-07 10:15 发表于江苏
收录于合集#前沿生物大数据分析
撰文:风不止步
IF= 47.99
推荐度:⭐⭐⭐⭐⭐
亮点:
文章开发第一个通用平台US-align,用于统一对齐不同大分子的单体和复合结构--蛋白质、RNA和DNA,建立在一个统一的TM分数目标函数和启发式对准搜索算法。大规模的基准测试表明,US-align在不同分子的成对和多结构比对方面比最先进的方法有一定的优势。
2022年8月29日,美国密歇根大学医学院的张扬等人在《Nature Methods》上发表了一篇“US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes”的文章,文章开发一个通用结构比对(US-align)平台,它为单体,蛋白质和核酸结构进行三维(3D)结构比对,建立在成熟的TM-score和启发式结构比对算法上。解决了所有大分子结构排列的通用策略使得异质复合物(如蛋白质-RNA复合物)的排列是可行的。同时,对统一评分标准的广泛优化使该算法与为特定结构排列任务开发的最先进的方法相比,能够产生更快更准确的排列。
US-align是一个多功能的结构比对程序,有四种不同的比对模式,每种模式都可以处理蛋白质、RNA和DNA的结构(图1)。四种模式分别是:(1)单体结构对齐模式在一对单链间建立最佳叠加的残基级对应关系;(2)低聚物对齐模式在一对低聚物结构间建立链级和残基级对应关系,每个结构都有两个或更多的链;(3)多结构对齐(MSTA)模式从三个或更多的单体结构中构建共识对齐;(4)基于模板的对接模式通过将两个或更多的单独链与一个低聚物模板相匹配,将它们组装在一起。
US-align建立在构建多个启发式对接的基础上,涵盖不同的初始姿势,以避免局部最小值的陷阱--这是许多结构对接方法所面临的问题。后续的快速动态编程迭代有助于提高对齐程序的准确性和速度。下面对US-align在四个不同的对准任务中的表现进行了基准测试。
低聚物结构对准。首先将US-align与两个用于低聚物结构对准的开源程序,即MM-align和MICAN,进行低聚物结构对齐的基准测试。MM-align通过对每个单独的链对进行TM-align排列组合来生成结构排列,而MICAN是建立在二级结构元素(SSE)和残基级排列的分层策略上的。三个程序在一组1,123个蛋白质复合物结构上进行基准测试,其在成对的序列同一性截止值为30%时是不冗余的。该数据集包括200个二聚体、200个三聚体、200个四聚体、129个五聚体、200个六聚体、60个七聚体和134个八聚体。
图2总结三种低聚物对齐程序在TM-score、RMSD、对齐覆盖率和执行时间方面的表现,在具有相同链数的结构中进行对齐。由于同一对结构的TM-score和覆盖率可能因TM-score和覆盖率是以长结构还是短结构为标准而不同,文章介绍了以短结构为标准的TM-score和覆盖率。数据显示,US-align在TM分数、覆盖率和执行时间方面一直优于MM-align和MICAN。然而,在图2b中,MICAN与US-align和MM-align相比,确实有较低的RMSD。这是因为MICAN对准的覆盖率比其他方法小得多,这也是MICAN的TM分数低的原因,因为对准精度和覆盖率之间缺乏平衡。
单体结构比对。单链单体结构的结构比对是US-align的一个基本组成部分。为考察RNA单体结构比对的有效性,使用CD-HIT-EST对PDB中所有3,724条RNA序列进行聚类,结果有637条链的序列长度在30核苷酸(nt)以上,成对的序列一致性小于80%。然后用US-align和其他四个程序(RMalign, STAR3D, ARTS和Rclick)对这637条链进行全对的比对。
图3A-D数据显示,US-align优于所有四个对照的RNA结构比对程序,其TM-scoreRNA比RMalign高5.8%,比STAR3D高27.5%,比ARTS高34.5%,比Rclick高38.6%,其中所有TM-score比较的差异对应于P<1×10-303。此外,US-align比四个控制程序分别快9.6、31.6、2.0和45.7倍。在图3e中,运行RNA结构比对程序,将一个短的rRNA-IV(PDB ID 4V8M,135 nt)与一个大的28S rRNA(PDB ID 6Y2L链L5,3,613 nt)相匹配。只有US-align可以识别出正确的排列,TM-score=0.595,比其他四个程序识别的排列高2.3到4.6倍。这强调US-align处理具有复杂拓扑结构和低序列相同的RNA结构对的能力。
多重结构排列。MSTA将具有相似拓扑结构的几个(三个或更多)单体结构匹配到一个单一的对齐矩阵中。为了检验US-align对RNA MSTA的能力,文章收集了一个基准数据集,通过内部qTMclust算法对上面使用的RNA单体对准数据集的637个结构进行聚类,TM-scoreRNA的截止值为0.45。每组至少有三个结构的31个群组被用作MSTA基准数据集,在每个群组内进行几个RNA比对。
图4显示US-align与两个第三方程序的平均性能比较,这两个程序是由蛋白质结构比对工具扩展而来的。该比较是基于所有程序都能产生结果的29组RNA的子集,因为MUSTANG不能完成两组长RNA的MSTA。US-align的表现优于两个MSTA程序(Matt和MUSTANG),分别取得了4.8%和3.5%的TM-scoreRNA,以及15.5%和63.9%的RMSD。TM-scoreRNA、RMSD和覆盖率都是根据从MTSA中提取的配对排列计算出来的。结果表明US-align比对照程序快得多,平均时间比Matt和MUSTANG分别短15.0倍和1650.3倍。
RNA-蛋白质对接。鉴于US-align对蛋白质和核酸结构对接的能力,构建一个基于模板的RNA-蛋白质对接管道,将查询的RNA和蛋白质链分别与已知的RNA-蛋白质复合物结构库进行匹配,最终的模型按照RNA和蛋白质结构对接的TM-分数的均方根进行排序。
图5a-c展示了US-align在一组439个非冗余RNA-蛋白质复合物上的表现,并与两种最先进的RNA-蛋白质对接方法3dRPC和PRIME进行了比较,后者分别进行了无模板和基于模板的对接。结果显示,US-align取得的RNA RMSD中值比3dRPC(15.5%)和PRIME(22.8%)低得多。重要的是,US-align的平均运行时间(19.89分钟)比3dRPC(559.86分钟)快28倍,比PRIME(118.49分钟)快6倍。
图5d展示一个核糖体蛋白和mRNA(PDB ID 2VPL)复合物的例子,US-align创建的模型的RMSD(1.0Å)明显低于3dRPC(29.3Å)或PRIME(8.9Å)。尽管PRIME和US-align识别了相同的模板(PDB ID 1MZP),但由于更精确的RNA和蛋白质结构排列,US-align的模型更接近于原生结构。
总而言之,作者开发了US-align,用于蛋白质、RNA和DNA分子的单体和寡体结构比对的通用协议,建立在统一的TM-分数目标函数和启发式迭代搜索算法的耦合上。大规模的基准测试表明,US-align在广泛的结构比较任务中,包括低聚物结构比对、RNA和蛋白质MSTA以及基于模板的蛋白质-RNA对接,在比对精度和速度方面都优于最先进的程序。鉴于结构比对在分子生物学中的重要性,统一结构比对工具的高效率应极大地促进不同类型的生物大分子的相关结构生物学和功能注释研究。
尽管效率高,但US-align本质上是一个依赖序列顺序的刚性结构比对工具,这不足以满足一些特定的应用。例如在虚拟筛选研究中,比较配体-受体相互作用的结合袋时,通常倾向于使用序列独立的比对。同时,灵活的结构比对需要用于比对具有不同域间方向的多域结构,或者用于比对具有较大构象变化的多链复合体。未来的发展需集中在US-align的扩展上,以实现独立于序列顺序的灵活排列。
教授介绍
张扬 Yang Zhang's lab首席研究员
实验室感兴趣的方面:蛋白质结构预测;蛋白质设计;基于结构的函数注释;SNP突变和遗传疾病;蛋白质-蛋白质相互作用;G蛋白偶联受体和配体受体相互作用;配体筛选和基于结构的药物设计。
实验室未来几年的目标包括:
1.当同源模板可用时,如何构建实验分辨率的结构(低于1-2 埃,可用于药物筛选)
2.如何识别具有准确查询模板对齐的远距离同源模板?
3.当不存在模板时,如何通过从头算建模折叠具有正确拓扑结构的蛋白质(尤其是β蛋白质)?
4.如何折叠膜蛋白?
5.最近开发一种用于蛋白质接触和距离图预测的深度学习算法,显着提高了非同源蛋白质序列的建模精度。
参考文献
Chengxin Zhang, Morgan Shine et al.US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes.(2022)
网友评论