原文: Scientists at DeepMind and Meta Press Fusion of AI, Biology
![](https://img.haomeiwen.com/i25067830/c5c803d2b19b64b6.png)
Meta Platforms Inc. 预测数亿蛋白质结构的新工具是 Alphabet Inc. 子公司几年前在计算生物学领域取得突破的最新例子。
一些科学家期望新型人工智能系统能够加速生命科学领域的工作,尤其是药物开发。
谷歌母公司 Alphabet 位于伦敦的子公司 DeepMind Technologies 首先解决了一个困扰科学家 50 年的问题,它使用人工智能替代速度更慢、成本更高的实验室技术来确定蛋白质的三维结构。这些结构对于药物和疫苗开发、气候变化研究等至关重要。
DeepMind 在 7 月表示,其 AlphaFold2 AI 系统于 2021 年 7 月首次发布,已被用于预测科学界已知的几乎所有蛋白质的结构。 Meta 在 3 月 16 日表示,其 ESMFold 系统已被用于揭示更多蛋白质的结构,包括最不为人所知的蛋白质:在土壤微生物、海洋深处和人体内的一些蛋白质中发现的蛋白质。
Facebook 母公司 Meta 的 ESMFold 采用了一种大型语言模型,可以根据 OpenAI 的 ChatGPT 底层相同的技术从几个字母或单词中预测文本。 DeepMind 设计了一种不同的方法,使用一对神经网络。 Meta 表示,它的方法比 DeepMind 的方法快 60 倍,但准确性较低。
“这些蛋白质非常多样化,人们对它们知之甚少。为了达到这个规模并超越它,可能还有数十亿个序列,在预测速度上取得突破至关重要,”Meta AI 研究科学家 Alexander Rives 说。他说,使用大型语言模型,Meta 能够在两周内对超过 6 亿种蛋白质进行预测。
“有了人工智能,现在可以在分子尺度上深入了解蛋白质结构和自然界令人难以置信的复杂性,”他说。
自从 DeepMind 取得突破以来,人们对人工智能在生物学中的应用产生了浓厚的兴趣。
“AlphaFold 是蛋白质结构预测方面的巨大进步。我们受到他们取得的进步的启发,这引发了使用深度学习的全新浪潮,”华盛顿大学的生物化学家和计算生物学家大卫贝克教授说。
“ESMFold 的优势在于它非常快,因此可用于预测比 AlphaFold 更大的一组蛋白质的结构,尽管准确度略低,类似于 RoseTTAFold,”Baker 博士说,他指的是2021 年从他的实验室中出现的一种工具。
DeepMind 开源了 AlphaFold2 的代码,使其免费提供给社区。几乎所有科学已知的蛋白质——大约 2.14 亿种——都可以在公共的 AlphaFold 蛋白质结构数据库中查找。 Meta 的 ESM 宏基因组图谱包括 6.17 亿种蛋白质。
投资生命科学技术的成长型股权公司 Biospring Partners 的联合创始人 Jennifer Lum 说,过去,研究人员要花费数月或数年的时间才能确信自己了解蛋白质的结构。 “这个过程被 AlphaFold 缩短了,并允许这些团队将时间转移到更下游的研究和产品开发,进入其他增值领域,”她说。
AlphaFold 系统在两个不同的阶段走到了一起,反映了 DeepMind 将学术研究的严谨性与科技初创公司的文化相结合以处理世界上一些最大的科学问题的不同寻常的方法。
转折点发生在 2018 年,当时 DeepMind 联合创始人兼首席执行官 Demis Hassabis 在 AlphaFold 会议上询问团队是否可以解决寻找更好的方法来预测蛋白质结构的问题,或者他们是否应该解决其他问题,约翰说Jumper,DeepMind 的 AlphaFold 团队的首席科学家。
“这是我在 DeepMind 参加过的最不舒服的会议之一,”38 岁的 Jumper 博士说,他在芝加哥大学获得理论化学博士学位后于 2017 年加入实验室。
2018 年,AlphaFold1 在一项名为 CASP 的两年一度的实验中取得了最好的成绩,科学家们在该实验中测试了预测蛋白质结构的各种方法。但这对 DeepMind 来说还不够好。
AlphaFold 团队在 2018 年花时间跟踪 CASP,尝试不同的方法来改进 AlphaFold1,测试它们是否能与使用实验室方法确定的蛋白质结构的准确性相匹配。
15 到 18 名成员的跨学科团队中的大多数人都来自机器学习背景。其他人有生物学背景。 “但他们都……在项目过程中成为了有效的生物学家,”Jumper 博士说。 AlphaFold 接受了公共数据资源的培训,包括由欧洲分子生物学实验室的欧洲生物信息学研究所管理的数据资源。
Jumper 博士说,在他真正相信该团队能够完成其任务之前,该小组一直工作到 2019 年。
Jumper 博士表示,传统上,生物学家使用基于 X 射线和其他技术的实验室技术来了解单一蛋白质的结构,这一过程至今可能需要数年时间并耗资 100,000 美元。
虽然计算方法在理解蛋白质结构方面取得了进展,但它们的准确性不足以取代实验室方法。
最初的 AlphaFold 模型使用 AI 来预测氨基酸对之间的距离,然后在第二步中使用这些距离分布来得出蛋白质的预测结构。第二步涉及 AlphaFold 使用这些信息来提出蛋白质应该是什么样子的共识模型,并且没有调用人工智能。
根据 Jumper 博士的说法,在 AlphaFold2 中,蛋白质的结构是由神经网络本身预测的。据这位科学家称,该神经网络与所谓的基于注意力的神经网络配对,后者同时处理结构的各个部分以将它们连接起来,就像一个人可能会尝试解决拼图游戏一样。 “这与时间无关……一切都与准确性有关,”Jumper 博士说。
“在某些情况下,AlphaFold 可以在不到 20 秒的时间内非常准确地预测蛋白质结构,”DeepMind 说。 DeepMind 说,在 AlphaFold 之前,没有任何一种计算方法可以与实验精度相提并论。马里兰大学生物科学与生物技术研究所的 John Moult 教授说,虽然这种方法有一些局限性,但它解决了一个大问题,他于 1994 年共同创立了 CASP 实验。
“该团队现在正将注意力转向蛋白质创新方面的新挑战,”Jumper 博士说。
它正在寻求了解突变与有助于治疗疾病的蛋白质功能变化之间的联系。目前正在使用 AlphaFold 开发疟疾疫苗,此前牛津大学的一个团队在尝试其他方法多年后使用它来识别重要蛋白质的结构。 “当我们将我们的模型与 AlphaFold 的预测结构结合起来时,我们可以突然看到整个系统是如何工作的,”分子寄生虫学教授马修希金斯说。
网友评论