我们未来所面临的终局形态,不只是一个能说会道的聊天机器人,而是“具身智能”的通用人工智能。所谓具身智能,就是像人一样能与环境交互感知,自主规划、决策、行动的机器人。
为了让智能体具备“自治”的能力,一般需要将计划、记忆和工具这三部分组合起来。

任务规划(Planning)
教大型语言模型(LLM)思考的过程,有点像苏格拉底的“产婆术”。苏格拉底认为,他不能代替别人思考,但他可以通过提问引导别人思考,就好像产婆引导孕妇一样。这种方法可以让 LLM 对自己的想法进行调整和反思,最经典的方法是 ReAct,他有三个概念:
-
Thought:表示让大语言模型思考,目前需要做哪些行为,行为的对象是谁,它要采取的行为是不是合理的。
-
Act:也就是针对目标对象,执行具体的动作,比如调用 API 这样的动作,然后收集环境反馈的信息。
-
Obs:它代表把外界观察的反馈信息,同步给大语言模型,协助它做出进一步的分析或者决策。
我们可以用这种方法来启发 LLM 工作,比如让它帮你制定工作方案,并持续向它提问,例如:你的执行步骤有哪些潜在隐患和风险、有哪些方法可以降低风险、能否帮助我制定一些安全风险预案等等问题,以确保它生成的内容安全可靠。
在这个过程中,你要尽量唤醒 LLM 的相关知识,生成合理的计划,此时思维链技术(CoT)就非常重要了,它可以让 LLM 将任务分解为可解释的步骤。
我们通过“产婆术”让大型语言模型学会“思考”。我们让它学会制定和反思自己的计划,并教会它获取外部知识和使用工具的方法,让它可以独立完成复杂任务。
LLM 除了使用工具之外,已经可以制造工具了。OpenAI 推出的 Code Interpreter,让 LLM 有能力解决处理几乎各种模态的二进制数据,而不仅限于文字和图像。长远来看,这将颠覆现有软件工程的模式,Serverless 已经不新鲜了,Codeless 才是未来的常态。

此文章为8月Day20学习笔记,内容来源于极客时间《AI大模型系统实战 》,强烈推荐该课程
网友评论