对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

2026年06月13日 22:04

本文共计3936个字，预计阅读时长14分钟。

来源/每日经济新闻责编/LehuoChufang 乐活厨房

6月13日，智源研究院理事长黄铁军就围绕世界模型的相关争议作出了公开回应。在他看来，VLA与世界模型这两个概念之间并不存在根本性的矛盾。企业选择采用VLA这一技术路线，实际上是基于当前技术发展阶段所做出的现实性决策；而世界模型的长远目标则在于构建一个能够理解物理世界运作规律的通用性认知系统。由于构建一个完整的、能够精确模拟现实世界的世界模型仍然面临漫长的技术探索过程，因此当前更为务实可行的路径是帮助机器人逐步获得与人类相似的常识推理与理解能力。

世界模型正逐渐发展成为当前人工智能产业领域内受到广泛关注的核心议题之一，目前已有众多的研究机构与企业，开始将世界模型视为推动下一阶段人工智能竞争与发展的关键战略方向。

与此同时，关于世界模型的具体定义、其与当前主流的VLA路线之间的区别，以及它将依赖何种数据来持续进化等问题，行业内仍然存在着诸多争议。6月13日，在接受包括《每日经济新闻》记者在内的多家媒体采访时，智源研究院理事长、北京大学计算机学院教授黄铁军对这些问题进行了系统的回应。

从黄铁军的观点来看，当前众多企业借助VLA路线来推进具身智能的落地进程，这与世界模型的发展并不产生冲突。就产业层面而言，运用成熟技术去解决具体问题是一种现实的策略选择。然而，如果未来出现一个通用大脑作为基座，从而支撑垂直模型解决各个领域的问题，那么通用世界模型便会承担起这样的角色。

智源研究院理事长黄铁军，该图片由活动主办方提供。

机器人若想真正适应并服务于现实世界，便需要具备一个能够理解世界运行机制的智能核心。当前，围绕这一核心应如何构建，存在两条主要的技术路径：其一是“视觉-语言-动作”（VLA）技术路线，另一条则是旨在构建“世界模型”的宏大构想。智源研究院理事长黄铁军近日对此提出了明确的观点，他认为这两者之间并非相互排斥的关系。众多企业选择VLA路线，实质上是在当前技术条件下为解决具体应用问题所采取的务实策略。相较而言，世界模型的愿景则更为长远，它致力于打造一个能够深刻理解物理世界因果规律与交互本质的通用认知系统。

然而，构建一个完整且精确模拟现实的通用世界模型，无疑是一项极具挑战性的长期任务。因此，在现阶段，一条更为可行的中间路径是，先帮助机器人逐步积累与人类相近的常识推理能力与基础世界认知。值得注意的是，世界模型本身正迅速演变为全球人工智能领域竞相角逐的焦点议题，已有大量顶尖研究机构与科技企业将其视为驱动下一代人工智能竞赛的关键战略方向。与此同时，关于如何精确定义世界模型、其与VLA路线的具体分野，以及它究竟需要何种数据来进行训练与进化等核心问题，学界与产业界内部仍未形成完全一致的共识。

6月13日，智源研究院理事长、北京大学计算机学院教授黄铁军在接受包括《每日经济新闻》在内的多家媒体采访时，对这些争议性问题进行了系统性的阐述。在他看来，众多企业当前借助VLA技术来推进具身智能的落地，这与世界模型的长远目标并不构成根本冲突。从产业实践的角度出发，运用当前成熟可靠的技术去解决市场中的实际问题，是一种符合发展规律的现实选择。但是，展望未来，如果能够出现一个作为通用基座的智能大脑，用以支撑各种垂直领域模型解决专业化问题，那么，一个具备高度泛化能力的世界模型，便应当承担起这一通用基座的角色。

随着具身智能技术逐渐演变为资本市场与产业界共同追逐的焦点领域，视觉-语言-动作（VLA）这一技术路线已迅速发展成为行业内的主流选择之一。大量具身智能企业都借助于该路线，来推进具身智能在实际场景中的落地应用。

面对这一发展趋势，外界也随之产生了一个疑问：既然VLA已经能够处理诸多现实问题，那么世界模型的构建是否仍然具有必要性？

在黄铁军的观点中，VLA与世界模型之间并不存在根本性的冲突。企业选择VLA这一技术路线，主要是因为该路径已经得到了验证，能够切实解决行业内的实际问题。目前在制造、物流搬运、物体抓取等特定应用场景中，已有的大模型技术已经具备相当水平的可用性。然而，从研究机构的视角出发，如果目标是打造真正能够像人一样在各种不同环境中自主行动、灵活解决多样化问题的具身智能系统，那么仅仅依赖针对具体任务训练所获得的能力，是远远不够的。

"人脑就是一个小宇宙，人类其实对这个世界是有一个模型的，我们在做什么事的时候，有一个基本的判断依据。"黄铁军指出，真正意义上的世界模型不仅需要对物体运动与空间关系等基础规律形成理解，还应当掌握材料性质、环境变化以及人与人之间复杂交互所产生因果关系等方面的认知能力。

黄铁军指出，机器人所需要应对的任务范畴远不止是诸如搬运箱体、抓取物体等相对简单的操作，还包含诸如灾害救援以及极端环境作业等高度开放的复杂场景。

例如，当机器人面对火灾现场时，人类会本能地选择避开火焰，这是由于人体无法承受高温所带来的伤害；但是，如果机器人能够判断自身材料具备耐高温、不会融化的特性，那么它就可能采取完全不同的应对策略。

关于世界模型的发展进程，黄铁军作出如下判断：如果将目标设定为构建一个能够全面掌握物理、化学、生物乃至社会运行规律的完整世界模型，这依然是一条需要长期投入的探索之路。其原因在于，人类自身对于世界的认知边界始终处于动态扩展之中，因此，试图让单一的世界模型容纳并整合所有科学知识体系——包括生物学、化学、生命科学等各个领域——这一构想，更应被视作一个长远的、理想化的发展目标。

相较于追求长远愿景，一个更为现实的目标在于使机器人首先获取与普通人相当的常识能力，正如所指出的，未来两到三年内，一个能够胜任日常工作的世界模型，是有可能实现的。

与此同时，黄铁军还着重强调了另一个常被业界所忽视的问题，便是效率。在他看来，从世界模型的发展角度来看，一方面需要追求功能的完备性，另一方面则要求其在低功耗状态下，仍能使机器人保持操作的精准性与响应的灵敏性。

新的范式：世界模型正在开展对新的“数据燃料”的探索工作。

如果说世界模型的目标在于理解现实世界，那么支撑其成长与迭代的核心资源依然作为基础性的数据而存在。然而，在黄铁军的观点中，世界模型时代的数据逻辑与范式正在发生显著的转变。

过去几年，大模型的发展主要依赖静态数据集。企业借助于采集数据、构建数据集以及进行离线训练的过程，成功实现了模型能力的持续提升。这一模式推动了语言模型和多模态模型的快速发展，但在世界模型阶段，单纯依赖静态数据已经难以满足需求。

黄铁军对数据的本质提出了他的观点，认为数据本身构成了对环境的一种不完备表达。他指出，当前“数据”这一概念显得过于静态。黄铁军进一步阐述道，我们或许可以将“数据”的定义适当扩展，生物正是通过与环境进行交互，来获取其进化所依赖的信息。在他看来，在人类认知世界的过程中，知识并不仅仅来源于书本，更多时候，人们是在与环境的持续互动中逐步形成认知。无论是进行体育运动、学习技能，还是日复一日的工作与生活，其本质都是在不断获取新的信息。

因此，黄铁军指出，在世界模型的发展阶段，具备实时交互能力的数据来源将会持续增加。以耳机、智能眼镜为代表的可穿戴设备的进一步普及，将加速这一趋势的演进。用户在现实环境中所看到、听到乃至说出的信息，都有可能被实时记录下来，并同步转化为智能体理解其所处环境的信息组成部分。这正如同他所言，你所感知的景象，另一方亦可感知，信息无需经过人工的转述与翻译便能实现共享。

随着这种同步感知逐渐演进为一种普遍现象，人们的工作与生活过程事实上正经历着数字化转型，而这一转变过程中所捕获的、来自第一视角的实时同步数据，从而构成了训练世界模型所不可或缺的核心数据资源。

这一判断的背后，实际上与数据采集模式的改变密切相关。

当前，不少机器人企业仍在着手建设专门的数据采集中心，借助遥操作、人工示范等手段来收集训练数据。黄铁军就此作出了判断，从长远发展的角度审视，这或许并非成本效益最优的路径。相较而言，让工人在正常工作过程中佩戴相应设备以同步采集数据，或是在用户使用智能体服务期间自然生成数据等模式，同样值得深入探索。他相信，可穿戴式的传感器设备数量将日益增多，这将会为未来产生更多数据提供一个至关重要的来源。

在过去的产业发展阶段中，行业对代码能力的实际价值并未给予充分的认可与重视。

过去半年，以Anthropic为代表的科技公司正在系统性地强化其代码能力基础设施建设，这一举措使得诸如Claude Code之类的代表性产品相继涌现，并因此引发了产业界的广泛关注与讨论。

代码所具备的内在逻辑性，其严谨程度与结构化水平通常远超日常使用的自然语言，这种特性正是促使计算机编程语言被设计成高度结构化形式的核心动因。因此，代码数据的特质与质量必然对大语言模型的能力表现产生关键性影响。黄铁军指出，Anthropic在部分模型的训练过程中，所采用的代码数据已达到极高的比例，其中不仅涵盖了开源代码资源，更包含了大量经过长期迭代、成熟稳定的高质量商业软件代码。

黄铁军坦言，最初许多人重视代码数据是为了提升模型性能，然而却未能充分重视Coding本身所蕴含的巨大产业价值，这一现象值得深入反思。

黄铁军指出，社会运行的底层机制正日益依赖于数字系统。诸如电网、金融系统、企业管理软件以及互联网服务等，其本质都是由代码构建而成的数字世界。相较而言，数字世界的重构门槛更低、见效的速度更快，这与具身智能受制于硬件、传感器及现实环境的复杂约束形成了鲜明对比。

在他看来，这正是OpenAI、Anthropic等机构现阶段持续投入资源以强化Coding能力这一战略的核心动因所在。

封面图片来源：主办方供图

来源：对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路 | 每日经济新闻

声明：本文来自每日经济新闻，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: 世界模型 VLA 具身智能人工智能技术路线

通知

尊敬的用户

user

资讯

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

相关图文

经济日报评论：该向“AI员工”征税吗？

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

人工智能落地加速工业互联网再迎政策东风算力设施成关键底座

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

创新药BD签约容易却拿钱难？对话安永大中华区吴晓颖：AI正在重构BD交易全流程

苹果欲借新版Siri补齐智能家居短板多款AI驱动设备蓄势待发

康宁三季度业绩指引略逊于预期 AI光通信业务增速放缓股价盘中跌近20%

启元机器人将携两款产品亮相2026 ChinaJoy

AI硬件再遇利空康宁股价闪崩

芯片股集体大跌！英伟达“自产自销”？其卷入2500亿美元“循环融资”风波，股价暴跌，知名评论员发出警告

佛山市顺德区成立全国首个具身智能发展局

Meta与贝莱德合作开发140亿美元数据中心项目，AI基建融资成本持续攀升

比亚迪人形机器人8月亮相相关概念股梳理

存储、AI芯片、光通信集体下跌，美光跌超5%；强生拟支付55亿美元和解滑石粉诉讼；SK海力士、希捷明日发布财报

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

相关图文

经济日报评论：该向“AI员工”征税吗？

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛 切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

人工智能落地加速 工业互联网再迎政策东风 算力设施成关键底座

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

创新药BD签约容易却拿钱难？对话安永大中华区吴晓颖：AI正在重构BD交易全流程

苹果欲借新版Siri补齐智能家居短板 多款AI驱动设备蓄势待发

康宁三季度业绩指引略逊于预期 AI光通信业务增速放缓 股价盘中跌近20%

启元机器人将携两款产品亮相2026 ChinaJoy

AI硬件再遇利空 康宁股价闪崩

芯片股集体大跌！英伟达“自产自销”？其卷入2500亿美元“循环融资”风波，股价暴跌，知名评论员发出警告

佛山市顺德区成立全国首个具身智能发展局

Meta与贝莱德合作开发140亿美元数据中心项目，AI基建融资成本持续攀升

比亚迪人形机器人8月亮相 相关概念股梳理

存储、AI芯片、光通信集体下跌，美光跌超5%；强生拟支付55亿美元和解滑石粉诉讼；SK海力士、希捷明日发布财报

推荐专栏

爱力方

机器人大讲堂

下一篇

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

人工智能落地加速工业互联网再迎政策东风算力设施成关键底座

苹果欲借新版Siri补齐智能家居短板多款AI驱动设备蓄势待发

康宁三季度业绩指引略逊于预期 AI光通信业务增速放缓股价盘中跌近20%

AI硬件再遇利空康宁股价闪崩

比亚迪人形机器人8月亮相相关概念股梳理