从融合世界模型到演生类脑架构，“中国特斯拉”为何能在VLA主航道上持续领航？

作者：彭堃方

编辑：吕鑫燚

出品：具身研习社

VLA正在长出下一代“大脑”。

世界模型概念升温过程中，行业开始反复提及同一个问题：VLA时代是不是已经结束了？

这种论调，不仅不懂技术演进的基本逻辑，也没有看透具身智能模型发展的本质。

模型究竟该怎么走，归根结底还是对任务的拆解。机器人进入真实场景，始终绕不开三件事：看见环境、理解指令、完成动作。只要这三件事还成立，视觉、语言、行动这组基本结构就不会凭空消失，真正变化的，只会是它们如何被组织、如何被增强，以及如何从“能动起来”继续走向“动得更稳、更快、更像一个真正的智能体”。

4 月 23 日，在 2026 POWER Robot 未来大会主论坛上，智平方创始人兼 CEO 郭彦东给出的判断很明确：VLA 没有终结，反而正在持续变得更强，它仍是通往物理世界智能的最强主航道。在现场，郭彦东第一次把智平方对 VLA 演进路径的理解完整摆到台前：过去是统一感知、理解与行动的端到端 VLA，现在是融合世界模型能力的增强型 VLA，未来则会进一步迈向类脑机制的全新阶段。

这次表态真正重要的地方，不只是为 VLA 站队，而是把行业里那种“VLA 与世界模型二选一”的讨论，重新拉回到更真实的技术演进逻辑里：世界模型不该是宣告 VLA 失效，而是在补足 VLA；而类脑机制也不是另起炉灶的平行路线，它将是下一代 VLA 的结构方向。

顺着这条逻辑看，智平方这次同步对外披露的类脑架构 VLA 具身大模型 NeuroVLA，以及一站式具身智能模型开源社区 AlphaBrain Platform，就不再是两个彼此独立的动作，它可以看作同一个判断的两面：一面指向下一代“机器人大脑”会如何演进，另一面则指向这套能力将如何被开放、被复用、被快速带进整个行业。

虽然郭彦东认为VLA一直站在主航道上，但过去一段时间行业内关于世界模型的讨论甚嚣尘上，以至于出现“VLA已经走到头”的武断之词。

从技术的第一性原理出发，方能感受到该论调的偏见。在智平方看来，早期VLA解决的是“听懂并动起来”的问题。世界模型的加入，则让系统多了一步，在执行之前，先在“脑子里跑一遍”。

更重要的是，智平方对世界模型的理解并不是把它作为VLA之外的外接模块。早在2023年下半年，智平方便率先提出，世界模型不应悬浮在VLA之外，而应深度内生于模型之中。顺着这一判断，智平方自研的大模型AlphaBrain在2025年11月吸纳了新一代架构Video2Act的最新成果，实现了“先预测、后执行”。在第三方评测中，相较于硅谷同类标杆模型，AlphaBrain取得了超过30%的性能领先，也证明了环境理解与动作执行一体化路线的优势。

所以换种思考，业内这波世界模型的热度，与其说在替代VLA，不如说是在把VLA往前推了一步。模型从一个偏执行的系统，慢慢长出预测和规划能力。

但当机器人真正进入真实环境之后，很快会遇到另一类问题：很多困难并不发生在“理解错了任务”，而是发生在动作细节上。比如动作有没有抖、节奏稳不稳、碰到干扰能不能立刻调整，这些问题更偏向“身体层面”。

于是，智平方更进一步提出了“类脑模型”。

在NeuroVLA论文中，团队提到一个很关键的观察：现有VLA在动态场景、节奏任务和精细操作上，和人类还有明显差距，一个重要原因在于系统长期依赖低频视觉反馈，缺少高频本体感觉、短时运动记忆和实时调整机制。

换个更直观的说法，机器人一直在长“大脑”，但本能式反应的“小脑”和“脊髓”这部分长期缺失。这里需要解释一下，智平方所说的“小脑”“脊髓”业内过去仅拿来做locomotion，但很少有融入到manipulation（操作）之中的。

NeuroVLA做的事情，就是把这部分补上。它采用类似“大脑—小脑—脊髓”的分层结构：上层负责语义理解和规划，中间层处理高频反馈和动作修正，底层负责快速执行和反射。而这套结构带来的变化，指向三个过去机器人长期难以补齐的能力：动态稳定性、超快反射和极低能耗。

比如，在执行精细操作时，机器人不再只是依赖低频视觉反馈慢慢纠偏，而是可以通过高频本体感觉持续修正动作；当外部碰撞突然发生时，安全反射可以在20毫秒以内触发，而20ms什么概念？人类眨眼速度最快是100ms；更关键的是，底层“脊髓”层依靠事件驱动的神经形态计算，执行任务时平均功耗仅0.4瓦，相当于你未插手机的充电器保持待机的功率。

这意味着，机器人开始从靠大脑想明白再行动，走向了身体自己也会反应的新阶段。过去我们讨论机器人大脑，更多关心它能不能理解指令、拆解任务、规划步骤；但进入真实物理世界后，很多能力其实发生在更低层：手臂稳不稳、碰撞能不能缩回、动作能不能省电、能不能长时间部署。NeuroVLA的意义就在这里，它让VLA开始长出类似生物的本能反应。

从这个角度看，NeuroVLA更像是VLA的一次结构升级。它把系统从“理解+执行”，推进到“理解+预测+控制+纠偏+反射”的完整链条。

如果说NeuroVLA代表了智平方对下一代机器人大脑的判断，那么AlphaBrain Platform则代表了另一层更现实的产业意图：这套能力不能只停留在少数头部团队手里，而要变成整个行业可调用、可验证、可迭代的基础能力。

这次智平方没有把最前沿的类脑模型藏起来，而是把NeuroVLA同步纳入AlphaBrain Platform。按照郭彦东在大会上的介绍，AlphaBrain Platform不是传统意义上只开源一个模型或一段代码，而是打通“数据—训练—模型—评测”的完整链路，试图提供一个一站式、开箱即用的具身智能模型开源社区。

它真正有辨识度的地方，主要体现在三条线上。

第一条，是NeuroVLA，对应类脑路线。它把高频本体感觉、短时运动记忆、实时运动调整和安全反射纳入VLA体系，在机器人“想”之外，把“做”进化为某种生物本能。

第二条，是RL Token，对应“强化学习+VLA”的低门槛落地。它解决的是一个长期悬而未决的问题：大模型能理解，但很难真正把动作做到位。过去强化学习能提升动作表现，但成本高、门槛高，还容易把原有能力“练没了”，很难成为规模化路径。

RL Token的意义在于，把强化学习嵌入到VLA体系中，变成一种可以持续调用的能力。模型先具备通用理解，再围绕具体场景做后训练微调，让动作在真实环境里一点点变得更稳、更准。这种路径更接近工程现实：不推倒重来，而是在已有能力上持续打磨。更关键的是，它把成本和复杂度压了下来。通过冻结VLA主体，只训练轻量模块，强化学习从“重资产实验”变成“可复用工具”。这一步让大模型开始真正接近落地，而不是停留在演示效果。

第三条，是可插拔世界模型架构，对应世界模型的工程化。行业对世界模型的讨论已经很多，但真正难的部分是如何用起来。不同路线之间难以对比、难以集成，也很难放进同一套任务系统里验证。可插拔架构把这个问题拆开处理。不同世界模型可以在同一任务中直接切换、测试和复现，开发者可以清楚看到每一条路线的差异，而不需要反复搭环境、改系统。