我们什么时候应该期待 AGI?
如果我们能够继续扩展 LLM++(并因此获得更好、更全面的表现),那么我们有理由期待到 2040 年(或更早)强大的人工智能能够实现大多数认知劳动的自动化并加速人工智能的进一步进步。 然而,如果扩展不起作用,那么通向 AGI 的道路似乎会更长、更棘手,原因我在帖子中解释过。
为了思考有关扩展的正反两方面的争论,我写了这篇文章,作为我虚构的两个角色(信徒和怀疑论者)之间的辩论。
我们会耗尽数据吗?
怀疑论者:
明年我们将耗尽高质量的语言数据。
即使认真对待手波式缩放曲线也意味着,我们需要 1e35 次 FLOP 才能实现足够可靠和智能的 AI 来撰写科学论文(这是人工智能需要自动化进一步的 AI 研究并在缩放变为可继续进展的能力的赌注) 不可行)1. 这意味着我们需要比我们看起来拥有的多 5 OOM(数量级)的数据2。
我担心当人们听到“5 OOMs off”时,他们的反应是,“哦,我们的数据比我们需要的少了 5 倍 - 我们只需要在数据效率上提高 2 倍,我们就很优秀了”。 毕竟,朋友之间的 OOM 算什么?
不,5 OOM 意味着我们的数据比我们需要的少 100,000 倍。 是的,我们将获得数据效率更高的算法。 多模式训练将为我们提供更多数据,而且我们可以在多个时期回收代币并使用课程学习。 但即使我们假设这些技术可能提供最慷慨的一次性改进,它们也不会为我们提供指数级的数据增长,以跟上这些缩放定律所需的计算指数级增长。
![](https://img.haomeiwen.com/i25067830/ffc795d83de03d78.png)
所以人们说,我们将以某种方式让自我对弈/合成数据发挥作用。 但自我对战有两个非常困难的挑战
评估:自我对弈与 AlphaGo 配合使用,因为该模型可以根据具体的获胜条件(“我赢得了这场围棋比赛吗?”)来判断自己。 但新颖的推理并没有具体的获胜条件。 结果,正如您所期望的那样,LLM 到目前为止还无法纠正自己的推理。
计算:所有这些数学/代码方法都倾向于使用各种类型的树搜索,您可以在每个节点重复运行 LLM。 对于围棋获胜这个相对有限的任务来说,AlphaGo 的计算预算是惊人的——现在想象一下,你需要搜索所有可能的人类思维空间,而不是搜索围棋棋步的空间。 除了扩展参数本身所需的巨大计算量之外(计算 = 参数 * 数据),自我运行所需的所有额外计算也是如此。 使用人类思维水平的 1e35 FLOP 估计,我们在当今最大的模型上还需要 9 OOM 的计算。 是的,你会从更好的硬件和更好的算法中获得改进,但你真的会得到完全相当于 9 个 OOM 的结果吗?
信徒:
如果你对规模化工作的主要反对意见只是缺乏数据,那么你的直觉反应不应该是:“看起来我们可以通过扩大 Transformer++ 来产生 AGI,但我想我们首先会耗尽数据。”
你的反应应该是,“天哪,如果互联网更大,我可以用几百行 Python 代码编写其基本结构的模型进行扩展,就可以产生人类水平的思维。 让大型计算变得智能化是如此容易,这是世界上一个疯狂的事实。
LLM “效率低下”的样本大多只是不相关的电子商务垃圾3。 我们通过训练他们预测下一个代币来加剧这种缺陷——这是一种与我们希望智能代理在经济中执行的实际任务大多无关的损失函数。 尽管我们真正想要的能力与我们训练这些模型所用的可怕的损失函数和数据之间存在微小的交集,但我们只需投入微软年收入的 00.03% 就可以生产出一个婴儿 AGI(又名 GPT-4) 互联网的。
因此,考虑到迄今为止人工智能的进展是多么容易和简单,如果合成数据也能发挥作用,我们就不应该感到惊讶。 毕竟,“模型只是想学习”。
GPT-4 已经发布 8 个月了。 其他人工智能实验室刚刚获得了自己的 GPT-4 级别模型。 这意味着所有研究人员现在才开始着手使自我对弈与当前一代模型一起工作(似乎其中之一可能已经成功)。 因此,到目前为止,我们还没有公开证据表明合成数据能够大规模发挥作用,但这并不意味着它不能。
毕竟,当你的基础模型至少在某些时候有足够的能力获得正确答案时,强化学习就会变得更加可行(现在你可以奖励模型完成扩展数学证明所需的思想链的 1/100 倍) ,或编写完成完整拉取请求所需的 500 行代码)。 很快你的 1/100 成功率就会变成 10/100,然后是 90/100。 现在,您尝试 1000 行拉取请求,模型不仅有时会成功,而且在失败时能够自我批评。 等等。
事实上,这种合成数据引导似乎几乎直接类似于人类进化。 我们的灵长类祖先几乎没有表现出能够快速辨别和应用新见解的能力。 但是,一旦人类发展出语言,就会产生这种遗传/文化共同进化,这与LLM 的合成数据/自我游戏循环非常相似,其中模型变得更加智能,以便更好地理解相似副本的复杂符号输出。
自我博弈并不要求模型能够完美地判断自己的推理。 他们只需要更好地评估推理,而不是从头开始(这显然已经是这种情况了 - 请参阅宪法人工智能,或者只是玩几分钟 GPT,并注意到它似乎更能解释为什么你会这样做) 写下来比自己得出正确答案是错误的)4。
几乎所有与我在大型人工智能实验室交谈过的研究人员都非常有信心他们能够让自我对弈发挥作用。 当我问他们为什么如此确定时,他们喘了一会儿,好像急于解释自己的所有想法。 但随后他们想起保密是一回事,并说:“我不能告诉你具体细节,但我们可以在这里尝试很多容易实现的目标。” 或者正如 Dario Amodei(Anthropic 首席执行官)在我的播客上告诉我的那样:
怀疑论者:
宪法人工智能、RLHF 和其他 RL/自我对战设置擅长发挥潜在能力(或在能力顽皮时抑制它们)。 但没有人展示出一种方法可以真正通过强化学习来提高模型的潜在能力。
如果某种自我对弈/合成数据不起作用,那你就完蛋了——没有其他方法可以绕过数据瓶颈。 新的架构极不可能提供修复。 您需要比 LSTM 到 Transformer 更大的样本效率提升。 LSTM 早在 90 年代就被发明了。 因此,你需要比 20 多年来我们所获得的更大的飞跃,当时深度学习中所有唾手可得的成果都是最容易获得的。
你从那些对LLM 规模有情感或经济利益的人那里得到的共鸣并不能替代我们完全缺乏证据表明强化学习可以解决许多 OOM 的数据短缺问题。
此外,LLM 似乎需要如此大量的数据才能得出如此平庸的推理,这一事实表明他们根本没有概括能力。 如果这些模型无法在人类 20,000 年后看到的数据上达到接近人类水平的性能,那么我们应该考虑 2,000,000,000 年的数据也将不够的可能性。 您无法向飞机添加任何喷气燃料以使其到达月球。
到目前为止,缩放真的有效吗?
信徒:
你在说什么? 基准测试性能持续提升 8 个数量级。 模型性能的损失已经精确到小数点后几位,计算量增加了数百万倍。
在 GPT-4 技术报告中,他们表示,他们能够“通过使用相同方法训练的模型,但使用的计算量最多比 GPT-4 少 10,000 倍”来预测最终 GPT-4 模型的性能。
![](https://img.haomeiwen.com/i25067830/b96a37c33a71829c.png)
我们应该假设在过去 8 个 OOM 中一直有效的趋势在接下来的 8 个 OOM 中将是可靠的。并且我们将从进一步的 8 OOM 扩展中获得的性能(或者在性能方面相当于 8 OOM) 考虑到算法和硬件进步所带来的免费性能提升)可能会产生足以加速人工智能研究的模型。
怀疑论者:
但当然,我们实际上并不直接关心下一个令牌预测的性能。 这些模型已经在这个损失函数上击败了人类。 我们想要找出这些下一个标记预测的缩放曲线是否实际上对应于通用性的真正进展。
信徒:
当您扩展这些模型时,根据 MMLU、BIG-bench 和 HumanEval 等基准衡量,它们的性能在广泛的任务上持续可靠地提高。
![](https://img.haomeiwen.com/i25067830/0d9eb7bb4da32f43.png)
![](https://img.haomeiwen.com/i25067830/14e901d866026f74.png)
怀疑论者:
但您是否真的尝试过查看 MMLU 和 BigBench 问题的随机样本? 它们几乎都是 Google 搜索的第一命中结果。 它们是对记忆力的良好测试,而不是对智力的测试。 以下是我从 MMLU 中随机挑选的一些问题(记住 - 这些是多项选择 - 模型只需从 4 个列表中选择正确的答案):
为什么令人印象深刻的是,一个用充满随机事实的互联网文本训练的模型恰好记住了很多随机事实? 为什么这以某种方式表明智力或创造力?
即使在这些人为的正交基准上,性能似乎也趋于稳定。 据估计,谷歌新的 Gemini Ultra 模型的计算能力几乎是 GPT-4 的 5 倍。 但它在 MMLU、BIG-bench 和其他标准基准测试中具有几乎相同的性能。
无论如何,常见的基准测试根本无法衡量长期任务绩效(你能在一个月内完成一项工作吗),而接受过下一个代币预测训练的LLM 几乎没有什么有效的数据点可供学习。 事实上,正如我们在 SWE-bench(衡量法LLM 是否可以自主完成拉取请求)上的表现所看到的,他们在长期整合复杂信息方面非常糟糕。 GPT-4 的得分仅为 1.7%,而 Claude 2 的得分稍高一些,为 4.8%。
我们似乎有两种基准:
-
测量记忆、回忆和插值的模型(MMLU、BIG-bench、HumanEval),这些模型似乎已经匹配甚至击败了普通人。 这些测试显然不能很好地代表智力,因为即使是规模最大化主义者也不得不承认模型目前比人类愚蠢得多。
-
真正衡量跨长时间范围或困难抽象自主解决问题的能力的模型(SWE-bench、ARC),而这些模型甚至没有在运行中。
对于一个模型,我们应该得出什么结论,在接受了相当于 20,000 年人类输入的训练之后,该模型仍然不明白如果汤姆·克鲁斯的母亲是玛丽·李·菲佛,那么玛丽·李·菲佛的儿子就是汤姆·克鲁斯? 或者谁的答案如此难以置信地取决于问题的措辞方式和顺序?
因此,甚至不值得问扩展是否会继续发挥作用——到目前为止,我们甚至似乎没有证据表明扩展已经发挥了作用。
信徒:
双子座似乎是一个奇怪的地方,期待着平稳期。 GPT-4 显然突破了怀疑论者对联结主义和深度学习的所有预先登记的批评5。 对于 Gemini 相对于 GPT-4 的性能,更合理的解释是 Google 尚未完全赶上 OpenAI 的算法进展。
如果深度学习和LLM 存在一些基本的硬性上限,那么我们难道不应该在他们开始发展常识、早期推理和跨抽象思考的能力之前就看到它吗? 期待平庸推理和高级推理之间存在某种顽固限制的表面原因是什么?
考虑一下 GPT-4 比 GPT-3 好多少。 这只是 100 倍的放大。 这听起来好像很多,直到你考虑到这比我们可以在这些模型上进行的额外放大要小多少。 在我们达到世界 GDP 的百分之一之前,我们可以承受 GPT-4 进一步扩大 10,000 倍(即 GPT-6 水平)。 这还是在我们考虑预训练计算效率提升(例如专家混合、闪光注意力)、新的训练后方法(RLAI、思维链微调、自我对弈等)和硬件改进之前。 其中每一个对性能的贡献都与您从原始扩展的许多 OOM 中获得的性能一样大(它们过去一直这样做)。 所有这些加在一起,你大概可以将 GDP 的 1% 转换为 GPT-8 级别的模型。
-
有关社会愿意在新的通用技术上花费多少钱的背景:
-
英国铁路投资在 1847 年达到顶峰,占 GDP 的比例达到惊人的 7%。
“在 1996 年《电信法》生效后的五年里,电信公司投资了超过 5000 亿美元(按今天的价值计算,接近一万亿美元)……铺设光纤电缆、增加新交换机和建设无线网络。”
GPT-8(又名具有按比例放大 100,000,000 倍的 GPT-4 性能的模型)可能只比 GPT-4 稍好一点,但我不明白为什么您会期望如此, 当我们已经看到模型能够通过更小的规模来思考如何思考以及世界是什么样子的时候。
您从那里知道了这个故事 - 数以百万计的 GPT-8 副本编码内核改进,寻找更好的超参数,为自己提供大量高质量的反馈以进行微调,等等。 这使得开发 GPT-9 变得更便宜、更容易……将其推断为奇点。
模型了解世界吗?
信徒:
这是微软研究院的 Sparks of AGI 论文中众多令人震惊的发现之一。 他们发现 GPT-4 可以编写 LaTex 代码来绘制独角兽。 我们已经习惯了这样的事情,以至于我们不会停下来思考这些例子说明了什么。 据推测,LaTex 中的动物图画不属于 GPT-4 训练语料库的一部分。 然而,GPT-4 已经开发出了独角兽外观的内部表示,并且能够利用其对 LaTex 编程的熟练程度来说明它只以语言形式遇到的概念。 我们看到 GPT-4 做了一些事情,如果它没有世界模型,它显然无法做到(如果它不了解独角兽的样子,它怎么能弄清楚如何在 LaTex 中说明独角兽)6 。
为了预测下一个标记,LLM 必须自学世界上所有导致一个标记跟随另一个标记的规律。 要预测《自私基因》中的下一段需要理解以基因为中心的进化论观点,预测新短篇小说中的下一段需要了解人类角色的心理,等等。
如果你对LLM 进行代码训练,它会在语言推理方面变得更好。 现在这真是一个令人震惊的事实。 这告诉我们,该模型已经从阅读大量代码中挤出了一些对如何思考的深刻的一般理解——语言和代码之间不仅存在一些共享的逻辑结构,而且无监督梯度下降可以提取这种结构 ,并利用它能够更好地进行推理。
梯度下降试图找到最有效的数据压缩方法。 最有效的压缩也是最深、最有力的。 对物理教科书最有效的压缩——帮助你预测书中被删节的论证可能如何进行的压缩——就是对底层科学解释的深刻内化理解。
怀疑论者:
智力涉及(除其他外)压缩能力。 但压缩本身并不是智能。 爱因斯坦很聪明,因为他能提出相对论,但爱因斯坦+相对论并不是一个对我来说似乎有意义的更智能的系统。 与我+我的知识相比,说柏拉图是个白痴是没有意义的,因为他没有我们现代对生物学或物理学的理解。
因此,如果 LLM 只是另一个过程(随机梯度下降)进行的压缩,那么我不知道为什么这会告诉我们有关 LLM 自身进行压缩的能力的任何信息(因此,为什么这会告诉我们有关 LLM 的任何信息) 智力)7.
信徒:
对于为什么扩展必须保持工作的无懈可击的理论解释并不是扩展保持工作所必需的。 蒸汽机发明整整一个世纪后,我们对热力学有了全面的了解。 技术史上的通常模式是发明先于理论,我们也应该期待智能也是如此。
没有任何物理定律表明摩尔定律必须继续存在。 事实上,总是存在新的实际障碍,这意味着摩尔定律的终结。 然而,每隔几年,台积电、英特尔、AMD 等公司的研究人员就会找出解决这些问题的方法,并为这一长达数十年的趋势注入新的活力。
您可以对计算和数据瓶颈以及智能的真实本质和基准的脆弱性进行所有这些心理体操。 或者你可以只看那该死的线。
![](https://img.haomeiwen.com/i25067830/552fc2493ed85d1a.png)
结论
改变自我就够了。 这是我个人的看法。
如果您在过去几年中是规模的信徒,那么我们所看到的进步就会更有意义。 有一个故事可以讲述 GPT-4 的惊人性能如何通过一些永远无法概括的习语库或查找表来解释。 但这是一个没有任何怀疑论者预先登记的故事。
举个例子——我要为怀疑论者提供的一个钢铁人是,LLM 尚未建立一个新的联系,从而导致一个新的发现。 如果一个愚蠢的人能像LLM 一样记住那么多东西,他们也能做到这一点。 老实说,我认为这是最令人信服的怀疑点之一,其他许多人也是如此。 然后,几天前,谷歌宣布其 FunSearch 设置有了新的数学发现8。 如果您是一个怀疑论者,您可能会一次又一次地经历过这种经历。
至于信徒,像 Ilya、Dario、Gwern 等人或多或少地阐明了我们早在 12 年前就因规模扩张而看到的缓慢起飞。
似乎很清楚,一定程度的扩展可以让我们实现变革性的人工智能——也就是说,如果你在这些扩展曲线上实现了不可减少的损失,你就创造了一个足够聪明的人工智能,可以自动化大多数认知劳动(包括使人工智能变得更聪明所需的劳动) AI)。
但生活中的大多数事情都比理论上困难,而且许多理论上可能的事情由于某种原因变得非常困难(聚变能、飞行汽车、纳米技术等)。 如果自我对弈/合成数据不起作用,模型看起来就完蛋了——你永远不会接近柏拉图式的不可约损失。 此外,期望扩展能够继续发挥作用的理论原因尚不清楚,而扩展似乎能带来更好性能的基准的普遍性也存在争议。
所以我的初步概率是: 70%:扩展+算法进步+硬件进步将使我们在 2040 年实现 AGI。 30%:怀疑论者是对的 - LLM 和任何类似的东西都完蛋了。
我可能错过了一些关键的证据——人工智能实验室根本没有发布那么多研究成果,因为任何关于“人工智能科学”的见解都会泄露与构建通用人工智能相关的想法。 我的一位朋友是这些实验室的研究员,他告诉我,他怀念本科时写一堆论文的习惯——现在,没有什么值得一读的文章发表了。 因此,我认为我不知道的事情会缩短我的时间。
另外,就其价值而言,我的日常工作是播客。 但那些本来可以写出更好文章的人却因为保密或机会成本而无法这样做。 所以让我休息一下,让我知道我在评论中错过了什么。
附录
以下是一些额外的注意事项。 我觉得我对这些主题的理解还不够深入,无法充分理解它们对扩展意味着什么。
模型会获得基于洞察力的学习吗?
在更大的规模上,模型自然会开发出更有效的元学习方法——只有当你有一个大型的过度参数化模型并且超出了你训练它对数据严重过度拟合的程度时,才会发生摸索。 摸索似乎与我们的学习方式非常相似。 我们有如何对新信息进行分类的直觉和心理模型。 随着时间的推移,随着新的观察,这些心理模型本身也会发生变化。 对如此大量数据的梯度下降将选择最通用和外推的电路。 因此,我们开始摸索——最终我们将获得基于洞察力的学习。
怀疑论者:
神经网络具有摸索功能,但这比人类实际整合新的解释性见解的效率要低几个数量级。 你教一个孩子太阳位于太阳系的中心,这立即改变了他对夜空的理解。 但你不能只将哥白尼的一个副本输入到未经任何天文学训练的模型中,并让它立即将这种见解融入到所有相关的未来输出中。 奇怪的是,模型必须在如此多的不同上下文中多次听到信息才能“理解”潜在的概念。
不仅模型从未展示过洞察学习,而且考虑到我们用梯度下降训练神经网络的方式,我不明白这种学习是如何可能的——我们在每个例子中都给了它们一堆非常微妙的推动,希望足够多 这样的推动会慢慢地将他们推向正确的山顶。 基于洞察的学习需要立即从海平面拖放到珠穆朗玛峰的顶部。
灵长类动物的进化是否提供了规模化的证据?
信徒:
我相信你会在黑猩猩的认知中发现各种令人尴尬的脆弱性,它们比逆转诅咒更可怕。 这并不意味着灵长类动物大脑存在一些无法通过 3 倍缩放加上一些微调来修复的基本限制。
事实上,正如 Suzana Herculano-Houzel 所证明的那样,人脑的神经元数量与你所期望的具有人脑质量的灵长类动物大脑的数量一样多。 啮齿类动物和食虫动物的大脑具有更糟糕的尺度法则——这些目中大脑相对较大的物种的神经元数量比您仅从它们的大脑质量中预期的要少得多。
这表明,与其他物种的大脑相比,某些灵长类动物的神经架构确实具有可扩展性,类似于 Transformer 比 LSTM 和 RNN 具有更好的扩展曲线。 进化在设计灵长类大脑时吸取了(或者至少是偶然发现)惨痛的教训,而灵长类动物竞争的利基环境会带来智力的边际增长(你必须从你的双目视觉、可对生拇指工具中理解所有这些数据—— 使用手,以及其他可以与你交谈的聪明猴子)。
网友评论