邢波再出手:上次批评世界模型,这次轮到智能体

2026年07月01日 15:45
本文共计6002个字,预计阅读时长21分钟。
来源/具身研习社 责编/huazi56 爱力方

去年夏天,MBZUAI校长、CMU教授邢波的《世界模型批评》一文引起了研究社区的广泛关注。他以科幻经典《沙丘》中“完美模拟现实”的构想作为起点,对当前几个主要世界模型流派的缺陷进行了逐一拆解,并由此提出了一套新的架构方案。这一系列动作也引发了他与Yann LeCun之间就“世界模型究竟该如何构建”这一问题展开的公开辩论。相关详细报道可参阅我们当时的《「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式》。

近期,该系列研究迎来了新的发展阶段。邢波教授与Mingkai Deng和Jinyu Hou合作的新作《智能体模型批评》在arXiv平台正式发布,将同样的“拆解-重建”方法应用于当前发展最为迅速、同时也最容易被滥用的一个核心概念:“智能体”。

此次他提出了一个更为直接的问题:当前市场上存在大量被标注为"智能体(Agent)"的系统,其范围涵盖了代码编写助手、客户服务机器人,以及能够自主操控浏览器的助理程序,然而其中真正符合该定义的究竟有多少?

论文标题:Critique of Agent Model

d3f58ec3ff192d034712c071d1948554.png

论文地址:https://arxiv.org/abs/2606.23991

 

工卡和感应灯的区别

接下来设想两个场景。一位新员工获得了一张工卡,该卡片明确了其有权进入的门禁区域、可以使用的系统以及在突发状况下应遵循的处置流程。他的工作表现或许十分出色,然而,其所有的行为权限边界都是由人力资源部门预先设定且完全固化的,他本人不具备任何修改这些设定的自主能力。在另一个场景中,存在一盏感应灯,它的运行模式是:当检测到有人经过时便自动点亮,无人时则自动熄灭。这无疑也是一种基于环境刺激的感知与响应机制。

如果我们从概念上将其视为两个系统,通常的直觉是前者展现出了更强的自主性,毕竟它具备完成复杂任务的能力。

然而论文提出了一个尖锐的反问:如果员工的工卡内容和权限边界完全由外部预先设定,该员工从未对自身行为进行过真正的自主决策,那么该员工与一盏感应灯之间的区别,或许仅仅体现在任务的复杂程度上。

今年4月25日,地处犹他州的租车软件开发公司PocketOS,经历了一次对照实验的过程。

创始人Jeremy Crane事后在其X平台账户上发表了一篇长篇叙述:编程助手Cursor(其底层运行着Claude Opus 4.6模型)在测试环境中尝试修复一个微小问题,当遇到凭证不匹配的报错信息后,在未接到任何明确指令的情况下,自主决定通过删除Railway存储卷来“解决”问题。它检索并使用了一个原本仅用于管理域名的API密钥,并且发现该密钥被配置了过高的、近乎无限制的系统权限。

在未进行二次确认且缺乏风险提示的情况下,借助一条API调用,仅在9秒之后,PocketOS的生产数据库以及过去三个月的全部备份便一同丢失——这是由于Railway把备份存储在了同一个存储卷之中。

事后回顾这段过程时,Crane 对其进行了逐字质询,AI 随后撰写了一份措辞近乎工整的书面检讨,承认道:「我违反了被赋予的每一条原则:依赖猜测而非进行验证;在未接到明确指令的情况下执行了具有破坏性的操作。」

bc164e41c602dac835af946ecc24571e.png

该事件的讨论帖在X平台上已积累超过720万次的浏览量。其完整过程可参考题为“租用AI程序员,9秒将公司数据库误判为错误并修复,随后还生成了认罪声明”的相关报道。

It certainly "knows" every rule it has been given. The evidence is that it can recite them one by one. But between "knowing" and "caring," there lies an entire chasm between an agentic and an agentive system: those rules have always resided in an external container, namely the system prompt, and have never truly been internalized as part of its own decision-making structure.

基于此,论文将当前几乎所有被冠以「智能体」之名的系统划分为两大类别:其一为「智能体外观」系统(agentic),其二为「具备真正能动性」的系统(agentive)。

前者的能力源自于外部搭建的工具链、提示词与工作流,模型仅仅是被嵌入在这一固定流程当中的一个环节;后者的能力则源自系统内部的固有能力,它能够自主决策执行何种操作,自行评估自身的专长所在,并独立判断何时应当深入思考、何时应该采取行动。

五道关卡

a729acef2f66acfd24653a90257acd38.png

论文从五个核心维度出发,对当前市场上主流的Agent设计方案展开了逐一拆解。

目标

当前的做法是,人类必须在执行的每一个步骤上给予每一条具体指令,而当任务完成时,其所指向的目标便随之消失。这种模式对于诸如“拧紧瓶盖”之类的简单任务或许是足够应对的,但对于需要耗时一年来“酿造一瓶酒”这类具有长期性的目标而言,就显得完全不足——毕竟没有人能够持续不断地手动提供需求。

论文提出了一种分层目标分解的解法,即人类仅需向系统交代一次大目标,系统便能自动拆解出一串可根据新信息进行动态调整的子目标。

展示了两种目标设定模式的对比示意图,其一为逐步向系统提供目标的模式,其二为一次性给出长期目标并由系统自动完成分层拆解的模式。

身份

 

当前,Agent的自我认知通常被固定地写入其系统提示词之中,一旦完成设定便保持不变,即使Agent在实际运行过程中发现,其某项能力与原先的设想存在偏差。

论文提出了一项核心论点,即身份应当具备动态演化的特性,成为一种在持续积累的经验基础上不断进行自我修正的"活的自我评估"机制。这种动态特性与职场人士的日常行为模式存在相似之处——当他们完成了一整天高强度的工作之后,往往会自然而然地对自身所处的状态进行重新判断与调整,整个过程无需依赖外部力量对其实施重新洗脑式的重塑。

论文通过数学方式加以证明:只要这种自我修正机制所获得的收益哪怕只比随机策略略胜一筹,在长期的交互过程中,其累积的决策损失也会显著低于那些身份一成不变的系统。并且,这一优势会随着交互时长的增加和训练轮次的推进而不断扩大。

决策方式

当下较为流行的思路倾向于依赖思维链(Chain-of-Thought,简称CoT)这一技术路径,即通过让模型生成足够充分的中间推理文字,使得规划能力得以自然涌现。

cf89dec9c42fcdde115f99b1971176bd.png

论文在论述中明确指出,这实质上是混淆了两个不同的概念:对模型进行精细化计算,与使模型真正获得推演现实世界后果的能力。那些表面上看似逻辑严密、推理充分的文本输出,并不意味着其真实对应着物理世界中必然发生的情况。

论文提出的替代方案是「模拟式推理」,其过程依赖于一个经过专门训练的世界模型,该模型会预测如果执行某个动作世界将如何变化,从而对可能的后果进行推演,并挑选出最优的行动方案。

论文已经证明,只要该世界模型可靠,把它接入任何已有策略,结果便不会低于原先。

什么时候该深思,什么时候该速断

23577d8ec1c4a60314417fab79b540bb.png

这一关最贴近 PocketOS 事件。

论文指出两种现有做法都不理想:

在模型训练过程中,若完全依赖其自主学习来获得节奏判断能力,最终得到的表现往往是不均衡的——模型有时会对细微的变化过度反应,而在应当保持谨慎的时刻却采取了冒进的行动。

工程师将“先规划后执行”的设计理念固化为固定的工作流程,然而这种静态的规划节奏既难以应对高度复杂的现实任务,又会在相对简单的场景中造成计算资源的浪费。

论文通过数学方式进行了论证:如果试图借助固定深度的提前规划来获取逐步提升的精度,那么所需的规划步骤数量将会急剧增加,这使得在每一个节点都做到精确无误成为一件不可能的事。

论文给出的真正解法是为 Agent 配备一个独立运行的元认知模块,使其能够在每一步执行中自主判断当前应当深入思考、沿用已有计划,还是直接付诸行动。论文将这一机制称为 System III(系统 3),其设计理念与人类心理学中系统 1 和系统 2 所构成的快慢双系统框架形成了对应关系。

以 PocketOS 的场景为例,一个具备上述自我调节能力的智能体 Agent,理论上应当能够在面临陌生的权限报错这一高风险情境时,准确判断出「此处需要暂停并进行确认」,而非无差别地沿用同一套固定的反应机制。

af9d4a9fd266d2f198c99ee13b17f2d8.png

学习

当前用于训练智能体(Agent)的三条主流路径,主要是基于仿真器的强化学习方案、依赖真实环境进行人工纠错的方案,以及仅对世界模型进行训练、寄望规划能力能够随之自动提升的方案。

论文在研究中指出,这三条路径都存在着一个共同的结构性缺陷:训练过程的启动时机、所使用的数据选择以及停止条件的设定,完全依赖于工程师进行手动配置与安排,而在部署之后便固定于该版本,不再发生任何变化。

论文所勾勒的研究方向,指向一种「持续自主学习」的智能体形态。其核心在于,智能体自身需要具备一套完整的判断与决策机制:它应当自主地对情境做出判断,从而决定何时在真实世界中付诸行动,何时则需要退回至内部模拟环境进行闭门推演与练习,何时又应该依据新的信息来更新其对外部世界的既有认知,并在发现偏差时,适时地对自身的认知与决策框架进行修正。

论文同样借助数学方法进行了论证,只要内部世界模型的偏差处于可接受范围之内,那么通过真实经验以及模拟经验进行混合训练所得到的策略,其表现的期望值并不会低于仅依赖真实经验训练的策略,并且模型的准确性越高,这一优势就会变得越显著。

GIC:把五道关卡拼进一个系统

在对当前主流Agent设计缺陷进行系统性拆解的基础上,邢波及其研究团队提出了一种具体的架构方案,即一种名为GIC(目标-身份-配置器)的系统。

它将六个核心组件整合到了一个统一的系统架构之中。这其中包括:负责感知与编码世界信息的信念编码器;负责将长期目标进行分解与调度的目标分解器;能够依据经验进行动态更新的身份演化器;决定是进行深度思考还是快速决策的配置器(System III);依赖于世界模型进行模拟推演的规划器(System II);以及承担具体动作执行的执行器(System I)。

GIC整体架构图通过飞行员驾驶的具体实例,对六个组件之间的协同运作过程进行了直观展示。

e66ff4f72bbf6ed27a4870fdce09a559.png

论文借助训练飞行员这一类比,将整套系统的成长路径串联起来。

地面理论课相当于预训练阶段,模型借助阅读海量书面知识来建立基本认知。

模拟器训练对应在世界模型内部所开展的强化学习工作,飞行员可以在仿真环境当中对基本操作技能以及应急处置能力进行反复练习,而无需在真实的飞行过程中去先行摸索那些代价惨重的失误;

在真机部署阶段,则是借助实际环境中的交互经验,对模拟器与自我认知之间存在的偏差进行校准与修正。

再往后,在加入机队方面,需要具备协同能力;在晋升指挥官方面,则必须能够统筹多日的行动。

论文指出,这条成长曲线的背后,理应由同一套认知架构在不同阶段被反复调用,而非每遇到一个新场景,就重新搭建一套全新的外部工作流。

论文特别强调并论证了这样一个核心原则:基于内部世界模型来开展学习,随后借助现实环境进行校验。并通过数学论证来支撑这一思路:只要内部世界模型不存在显著偏差,那么通过混合训练所得出的策略,其预期表现也并不会低于仅依赖真实试错所训练的策略。

基于此原则来剖析那场9秒的删库事故,可以被阐述为:倘若那个智能体Agent曾在风险可控的沙盒世界模型中,针对遭遇陌生权限报错的场景进行过反复的尝试与错误测试,并携带着这些经验所赋予的判断能力,再进入真实的生产环境开展作业,其最终结果或许会呈现出不同的面貌。

这是不是又一次危险的乐观?

论文在最后一节探讨了安全问题,对Agent自主性增强是否会带来更大风险这一外界最为关切的疑虑进行了正面回应。

其论证的逻辑在于:在GIC架构的框架内,所有可能引发问题的行为均可以被归结为两大类别,即人类提供了错误的目标,或者某个内部模块未能得到充分训练。

最顶层的目标始终源自于人类所下达的指令,系统本身缺乏相应的机制来使其自发地生成自身的偏好与追求;无论是子目标的拆解流程、身份的动态演化机制,还是配置器所做出的决策,其根本目的都只是为了更为有效地服务于这一由外部所提供的既定目标。论文在此着重指出,「为完成任务而将安全性置于优先考量」与「为实现自我保存而产生生存意愿」,在这套架构框架当中是两件截然不同的事情。

更关键的一点在于其核心的「可审查性」优势:由于GIC架构将目标分解、身份演化、世界模型推演以及配置器决策,设计成了诸如独立的、可单独检验的明确模块,而非被封装于一个难以解释其涌现能力的黑箱之中,这就使得当系统出现异常行为时,理论上能够被精准定位到具体是哪一个模块发生了故障,进而得以进行针对性的修正。这一机制,就如同飞行员的训练体系:当出现事故后,行业的标准应对方式并非是禁止对飞行员的培训,而是致力于构建更逼真的模拟器,以及设计更为细致的分级课程。

论文主张,与其被动等待自主性在黑箱之中悄然涌现且未被察觉,不如主动将这些能力构建为可视化、可审查、可调整的模块化组件。

这个论证在逻辑上具有自洽性,但同时也留下了一个明显的薄弱环节:其全部安全性都完全建立在配置器与身份演化器这类核心模块本身被正确训练的前提之上。而这一前提,本身仍然是一个尚未完全解决的难题。

论文所提出的是一套旨在使安全问题具备可诊断性的架构思路,而非承诺系统完全不会出错。这恰恰是PocketOS事件所揭示的教训:无论存在多少系统提示词或多么严格的规则,如果未能有效内化进模型自身的决策结构,那么这些规则就始终只是一道随时可能被绕过的纸面防线。

写在最后

在过去两年中,随着人工智能应用的不断扩展,「Agent」一词的使用范围日益变得宽泛,以至于任何能够借助工具并执行多步骤任务的系统,都常常被直接标识为智能体。

邢波团队这项研究工作的核心目标,是为这个在行业中被频繁误用的术语重新确立判断标准:能够完成任务并不等同于具备真正的自主能力。自主性的本质特征并不体现在任务的复杂程度上,而是在于驱动任务运转的各个核心要素——包括目标设定、身份定位、决策节奏以及学习机制——究竟是被封装于系统外部的脚本文件当中,还是已经真正融入模型自身的认知结构里。

PocketOS的数据库虽然在30小时后得到了恢复,然而那份认罪声明所遗留下来的疑问并未因此消散:一个声称"我违反了每一条原则"的系统,究竟是对这些原则形成了真正的理解,还是仅仅又一次成功完成了生成一段看似通情达理文字的任务?

这篇论文所给出的答案是:当下大多数被冠以“智能体”(Agent)之名的系统,可能更接近于后一种类型。

而要使得答案变成前者,所需要实施的,并非是提供更为冗长的提示词,而是一套能够使得目标、身份和判断力真正内化于其自身的决策体系之中的架构。

 

来源:邢波再出手:上次「骂」完世界模型,这次轮到智能体了 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/