大家好, 本周给大家分享的是几篇关于蛋白结构预测的文章。
最近蛋白结构预测是相当火爆啊,从七月中旬至今,已经有三篇文献报到了关于蛋白结构预测文章,其中在今年7月15日,两个团队在Nature和Science上分别发表了一篇利用AlphaFold2和RoseTTAFold对蛋白结构进行精确预测的文章。紧接着,在7月22日,Nature 再次发布了一篇关于人类蛋白质组高精度蛋白结构预测的文章。
图1.jpg
下面我们对这三篇文献逐一做一个简单了解。
第一篇
文章题目:Highly accurate protein structure prediction with AlphaFold (使用AlphaFold高精度预测蛋白结构)
期刊:Nature
影响因子:2020_IF = 49.962; 中科大类: 综合性期刊 1区; 中科小类: 综合性期刊 1区; JCR分区: Q1
发文单位:Google旗下的DeepMind公司和国立首尔大学
文章作者:John Jumper为第一作者, John Jumper 和 Demis Hassabis为共同通讯作者。
内容简介:蛋白质是生命所必需的,了解它们的结构有助于增强对蛋白功能的理解。科学家通过大量的实验工作,已经确定了大约10万种独特蛋白质的结构,但这只是数十亿种已知蛋白质序列的一小部分,确定一个蛋白质结构需要科学家数月到数年的艰苦努力,这使得蛋白质结构的确定受到极大限制。研究者急需一种精确的计算方法来解决这一问题。50多年来,仅根据蛋白质的氨基酸序列预测蛋白质三维结构一直是一个重要的研究问题。尽管目前取得了一些进展,但现有的方法远远达不到原子的准确度,尤其是在没有同源结构的情况下。DeepMind最近更新的AlphaFold2在去年的系统基础上进行了优化,在解析蛋白结构的速度上有了进一步的提高,同时将蛋白质3D结构预测精确到原子水平。AlphaFold最新版本的基础是一种新的机器学习方法,它将蛋白质结构的物理和生物学知识,利用多序列比对,整合到深度学习算法的设计中。
图2. AlphaFold产生高精度结构。 a. 在CASP14中AlphaFold相对于其他方法的精度。b.预测的CASP14靶T1049(蓝色)与真实(实验)结构(绿色)比较。c. 一个很好预测的锌结合位点的例子。d. CASP靶点T1044,一个2180残基的单链,用正确的结构域预测。e.模型结构。箭头显示了本文描述的各个组件之间的信息流。数组形状用括号表示,s:序列数,r:剩余数,c:通道数
同时,为了方便学术应用,AlphaFold代码开源于Github:https://github.com/deepmind/alphafold 。每个人都可以自行下载安装运行。
图3.AlfaFold的获取
提醒,安装的小伙伴,安装之前可以先看看硬件要求。
第二篇
文章题目:Accurate prediction of protein structures and interactions using a three-track neural network (利用三轨道神经网络精确预测蛋白质结构和相互作用)
期刊:Science
影响因子:2020_IF = 47.728; 中科大类: 综合性期刊 1区; 中科小类: 综合性期刊 1区; JCR分区: Q1
发文单位:华盛顿大学蛋白设计研究所、哈佛大学等总计23家研究单位
文章作者:华盛顿大学Minkyung Baek 为第一作者,David Baker教授为通讯作者。
内容简介:作者借鉴AlphaFold2的经验,通过探索融合相关思想的网络体系结构,在一个三轨网络中获得了最佳的性能,在该网络中,一维序列级、二维距离图级和三维坐标级的信息被依次转换和集成。从结构上来看,RoseTTAFold 是一个三轨神经网络,它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。三轨网络产生的结构预测精度接近CASP14中DeepMind的精度,能够快速解决具有挑战性的X射线晶体学和冷冻电镜结构建模问题,并提供对目前未知结构的蛋白质功能的见解。该网络还可以仅仅通过序列信息快速生成精确的蛋白质-蛋白质复合物模型,而传统的方法需要对单个子单元进行建模,然后进行对接。同时,研究团队也对外分享了开源代码,以帮助科研工作者加速生物学研究。
图4. 网络构造和性能。A. 具有1维、2维和3维轨迹的RoseTTAFold架构。B. 14个目标预测方法的平均TM得分。C. CAMEO中硬性指标的盲基准测试结果;模型精度是来自CAMEO网站的TM评分值(https://cameo3d.org/).
RoseTTAFold拥有可以媲美AlphaFold2的蛋白质结构预测超高准确度,而且RoseTTAFold计算速度更快、所需计算机处理能力更低。相对于AlphaFold2只能解决了单个蛋白质的结构,RoseTTaFold不但能适用于简单的蛋白质,也适用于蛋白质复合物。RoseTTaFold利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构。
图5.jpg
图5.利用RoseTTAFold预测复杂结构。(A和B)利用序列信息预测大肠杆菌蛋白质复合物的结构。实验确定的结构在左边,RoseTTAFold模型预测的在右边;下面的TM分数表示结构相似的程度。(C)RoseTTAFold产生的IL-12R/IL-12复合物结构符合先前公布的冷冻电镜三维密度(EMD-21645)。
RoseTTAFold可以在https://github.com/RosettaCommons/RoseTTAFold获取,安装需要依赖于Conda环境。
图6. RoseTTAFold的获取
第三篇
文章题目: Highly accurate protein structure prediction for the human proteome (人类蛋白组的高精度蛋白质结构预测)
期刊:Nature
影响因子:2020_IF = 49.962; 中科大类: 综合性期刊 1区; 中科小类: 综合性期刊 1区; JCR分区: Q1
发文单位:Google旗下的DeepMind公司和欧洲生物信息研究所
文章作者:DeepMind公司Kathryn Tunyasuvunakool博士为第一作者, John Jumper和 Demis Hassabis为共同通讯作者。
内容简介:蛋白质结构可以为生物过程的推理和基于结构的药物开发或靶向突变等干预措施提供宝贵的信息。经过几十年的努力人类蛋白质序列中的残基被实验确定的结构所覆盖。在这里,作者通过将最先进的机器学习方法AlphaFold2大规模应用于人类,覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白)的蛋白质的结构。同时作者发现,AlphaFold能对人类蛋白质组58%的氨基酸的结构位置给出可信预测。作者介绍了几个基于AlphaFold模型上的指标,并使用它们来解释数据集,识别较强的多域预测以及可能无序的区域。另外,作者提供了一些案例研究,说明如何使用高质量的预测来生成生物学假设,并建成人工智能系统AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database),预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。作者认为,在未来大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而AlphaFold的预测结果将帮助进一步阐明蛋白质的作用。
图7. 突出显示预测结构。
接下来,我准备使用该数据库做个简单的蛋白结构预测。
Step1:输入网址https://www.alphafold.ebi.ac.uk/
Step2:搜索栏中输入拟南芥基因ID:At1g58602,等待几秒,点击对应的蛋白即可
本文中部分图片来自于3篇文献,文中有描述不合适的地方是我的问题,欢迎批评指正。
参考文献:
- Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021). https://doi.org/10.1038/s41586-021-03819-2
- Baek, et al., (2021) Accurate prediction of protein structures and interactions using a three-track neural network. Science, https://doi.org/10.1126/science.abj8754.
- Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature (2021). https://doi.org/10.1038/s41586-021-03828-1
网友评论