无界动力发布MWA隐空间世界模型，此前融资数亿美元并登顶权威榜单

2026年06月29日 16:26

本文共计8380个字，预计阅读时长28分钟。

来源/OFweek机器人网责编/PixelHunter 像素猎人

今日，无界动力正式对外发布了全球首个采用“长时序双向物理因果链”技术的隐空间世界模型也就是MWA具身通用大脑，同时其在由斯坦福大学等顶尖机构所联合发起的具身智能权威榜单RoboCasa GR1 TableTop当中刷新了行业纪录并且荣登全球第一，进而超越了英伟达GR00T-N1.6、大晓机器人ACE-EGO-0、小鹏DIAL以及高德ABot-M0等行业主流模型。

自创立之初起，无界动力坚持“隐空间世界模型+强化学习”双轮驱动的技术路径：借助“隐空间世界模型”来建立“世界观”，从而对客观世界的物理规律以及因果关系进行认知，构筑起物理世界认知与未来状态预测的核心能力；借助强化学习来塑造“价值观”，基于高频的试错、解决与奖励，将对物理世界的深刻理解沉淀为改变现实的精准执行策略。

这条技术路径的选用，源于无界动力以第一性原理为基础对具身大脑本质所开展的思考以及洞察：无界动力始终认为，具身大脑的终极目标在于让机器人拥有类人的世界认知建模能力，而非构建客观世界的完整复刻模型。真正的智能不需要在世界的像素层面或微观层面去一一还原世界的所有冗余，而是应当如同人类大脑那样，在高度抽象的隐空间当中，直击物理因果与高维度常识的本质。

为了拓展具身通用大脑在多元真实场景中的泛化边界，无界动力以“隐空间世界模型”为基础，选用了“双向动力学”架构，进而推出了首个“长时序双向物理因果链”隐空间世界模型MWA。该模型摒弃了像素空间预测所产生的冗余噪音与高算力消耗，全程在统一共享潜空间完成推演，从而实现了高能效精准表征。同时，MWA创新性地实现了时序Chunk级逆向动力学建模机制，突破传统世界模型“单步潜动作推理”的桎梏，对逆向动力学模型的输出范式进行了重构，使其具备长时序因果归纳能力，可以批量推理输出连续多步Latent Action Chunk动作组，有效解决了机器人长周期作业连贯以及高精度执行难题。

在模型架构取得突破创新的基础之上，MWA也正在全领域的真实场景当中开展淬炼并且实现进化：从半结构化的工业产线到开放的商业空间，再到复杂多变的家庭环境，在这些极具挑战的实战当中，机器人不仅将前沿的物理因果推理能力转化为切实的商业价值，更借助真实交互来持续沉淀高价值数据，由此形成了“场景牵引—数据反哺—模型进化”的强劲飞轮效应，推动技术不断向更高阶实现跃迁。
。

“隐空间世界模型+强化学习”：双轮驱动的技术路径

无界动力自创立之初便选用“隐空间世界模型以及强化学习”来构成双轮驱动的技术路径。这一路径的选用，源于公司以第一性原理为基础对具身大脑本质所开展的系统思考。具身大脑的终极目标在于让机器人拥有类人的世界认知建模能力，而非构建客观世界的完整复刻模型。真正的智能不需要在世界的像素层面或微观层面去一一还原所有冗余信息，而是应当如同人类大脑那样，在高度抽象的隐空间当中，直击物理因果与高维度常识的本质。

隐空间世界模型这一轮得以构建机器人的“世界观”。它借助统一共享的潜空间完成推演，对客观世界的物理规律以及因果关系进行认知，进而构筑起物理世界认知与未来状态预测的核心能力。MWA创新性地选用“双向动力学”架构，推出了全球首个“长时序双向物理因果链”隐空间世界模型。该模型摒弃了像素空间预测所产生的冗余噪音与高算力消耗，全程在潜空间完成高能效精准表征。同时，MWA对逆向动力学模型的输出范式进行了重构，实现了时序Chunk级逆向动力学建模机制，得以突破传统世界模型“单步潜动作推理”的限制，批量推理输出连续多步Latent Action Chunk动作组，从而有效解决了机器人长周期作业的连贯性以及高精度执行难题。

强化学习这一轮则得以塑造机器人的“价值观”。它依赖于高频的试错、解决与奖励过程，将对物理世界的深刻理解沉淀为改变现实的精准执行策略。世界模型所提供的认知基础与强化学习所形成的行动策略相互促进，在半结构化的工业产线、开放的商业空间以及复杂多变的家庭环境当中开展实战淬炼。这些真实交互不仅把前沿的物理因果推理能力转化为切实的商业价值，更借助持续产生的高价值数据反哺模型迭代，由此形成了“场景牵引—数据反哺—模型进化”的强劲飞轮效应，推动技术不断向更高阶实现跃迁。

长期以来，具身智能行业在技术路径选择上始终存在着激烈的范式交锋。其中，以端到端动作预测为核心的VLA（视觉-语言-动作）大模型路线，曾借助强大的语义联动能力有力驱动了行业的早期迭代。然而，这种传统以语言为中介的具身模型架构，试图将连续的物理世界强行嵌入离散的语义空间，其泛化天花板已然清晰显现：当模型试图跨入高动态、多元化的严苛实体产业场景时，往往因缺失对物理边界与规律的深刻认知，从而失去了在多变场景中自主预测与长效进化的核心能力。

由于单纯依靠动作模仿以及语义理解，难以让机器人具备自主应对真实世界复杂环境的能力，为了大幅拓展机器人在多元真实场景中的应用边界，无界动力选用了“隐空间世界模型+强化学习”双轮驱动的技术路径，从而使得机器人得以真正构建起认知客观世界物理规律与因果关系的“世界观”，以及借助持续自主进化来最终输出精准策略操作的“价值观”。

隐空间世界模型建立“世界观”的核心逻辑，在于它能够剥离视觉表象，从而直击物理因果的本质。不同于视频生成类世界模型执着于预测“下一帧画面长什么样”，隐空间世界模型可以过滤掉与决策无关的像素细节，把注意力聚焦在物理世界的本质规律上，让机器人真正理解动作与物理世界变化之间的因果关系，进而构筑起物理世界认知与未来状态预测的核心能力。但仅仅理解物理世界还不够，机器人要走向多元场景落地，还需要借助强化学习来塑造其行动的“价值观”。如果说隐空间世界模型负责预判后果，强化学习则负责权衡利弊。在落地“零容错”的真实应用场景之前，强化学习已在真实交互中完成了高频的试错、解决与奖励，最终转化为对世界施加影响的精准策略操作。

“隐空间世界模型+强化学习”双轮驱动的技术路径，从本质上成功完成了从“理解物理世界”到“输出精准控制策略”的闭环。它在赋予机器人独立应对复杂未知环境能力的同时，还可以不断自主迭代进化，从而将对物理世界的深刻理解沉淀为改变现实的精准执行力，赋能具身智能跨越多元场景，加速走向更大规模的应用落地。

MWA：全球首个选用“长时序双向物理因果链”技术所首创的隐空间世界模型

“隐空间世界模型+强化学习”：双轮驱动的技术路径

这一双轮驱动路径在由斯坦福大学等顶尖机构联合发起的RoboCasa GR1 TableTop权威榜单中得以验证，MWA刷新了行业纪录并荣登全球第一，超越了英伟达GR00T-N1.6、大晓机器人ACE-EGO-0、小鹏DIAL以及高德ABot-M0等主流模型。借助这一路径，无界动力正在拓展具身通用大脑在多元真实场景中的泛化边界，为物理智能的规模化落地提供了一条清晰且可进化的技术路线。长期以来，具身智能行业在技术路径选择上始终存在着激烈的范式交锋。其中，以端到端动作预测为核心的VLA（视觉-语言-动作）大模型路线，曾借助强大的语义联动能力有力驱动了行业的早期迭代。然而，这种传统以语言为中介的具身模型架构，试图将连续的物理世界强行嵌入离散的语义空间，其泛化天花板已然清晰显现：当模型试图跨入高动态、多元化的严苛实体产业场景时，往往因缺失对物理边界与规律的深刻认知，从而失去了在多变场景中自主预测与长效进化的核心能力。
由于单纯依靠动作模仿以及语义理解，难以让机器人具备自主应对真实世界复杂环境的能力，为了大幅拓展机器人在多元真实场景中的应用边界，无界动力选用了“隐空间世界模型+强化学习”双轮驱动的技术路径，从而使得机器人得以真正构建起认知客观世界物理规律与因果关系的“世界观”，以及借助持续自主进化来最终输出精准策略操作的“价值观”。隐空间世界模型建立“世界观”的核心逻辑，在于它能够剥离视觉表象，从而直击物理因果的本质。不同于视频生成类世界模型执着于预测“下一帧画面长什么样”，隐空间世界模型可以过滤掉与决策无关的像素细节，把注意力聚焦在物理世界的本质规律上，让机器人真正理解动作与物理世界变化之间的因果关系，进而构筑起物理世界认知与未来状态预测的核心能力。但仅仅理解物理世界还不够，机器人要走向多元场景落地，还需要借助强化学习来塑造其行动的“价值观”。如果说隐空间世界模型负责预判后果，强化学习则负责权衡利弊。在落地“零容错”的真实应用场景之前，强化学习已在真实交互中完成了高频的试错、解决与奖励，最终转化为对世界施加影响的精准策略操作。
“隐空间世界模型+强化学习”双轮驱动的技术路径，从本质上成功完成了从“理解物理世界”到“输出精准控制策略”的闭环。它在赋予机器人独立应对复杂未知环境能力的同时，还可以不断自主迭代进化，从而将对物理世界的深刻理解沉淀为改变现实的精准执行力，赋能具身智能跨越多元场景，加速走向更大规模的应用落地。

为了进一步提升模型在长程决策稳定性以及因果推理精确性方面的表现，无界动力选用“长时序双向物理因果链”技术来首创隐空间世界模型也就是MWA具身通用大脑，借助时序Chunk级逆向动力学建模机制来输出连续多步Latent Action Chunk动作组，从而为机器人在多元复杂场景下的长时间、连贯、精准的任务执行提供了全新的潜空间时序建模方案。

MWA在“隐空间世界模型”的基础上，选用了“双向动力学”架构，从而在具身通用大脑当中建立起了一套正向与逆向双向协同的逻辑机制。当面临海量无标注的多源异构数据的时候，逆动力学编码器负责开展“由果推因”的因果复盘工作，它借助观察前后时序画面的空间结构变化，从时序画面当中抽离出通用的抽象“场景交互变化表征”，自主地将时序信号淬炼为通用的物理常识。在预训练完成之后，逆动力学编码器的权重将被冻结，成为固定不变的通用物理评判基准，为后续的策略训练工作提供稳定的潜态对齐目标。与此对应，正动力学解码器负责开展“脑内沙盘”的正向推演工作，它将抽象动作表征注入视觉特征之中，正向推演未来场景可能会发生的变化。借助这样一正一反的双向自监督机制，模型得以在抽象动作空间里面反复校正预测偏差，由此确保了机器人决策所具备的稳健性。

同时，MWA进一步完成了关键技术升级，成功首创“长时序双向物理因果链”隐空间世界模型，创新性地实现了时序Chunk级逆向动力学建模机制，从而突破了行业传统单步瞬时潜动作推理的固有局限，可以批量推理输出连续多步Latent Action Chunk动作组，首次实现了长时序连续动作链推演与秒级完整操纵事件前置推演，从根本上补齐了传统世界模型长周期操控易误差累积、动作不连贯的技术短板。

“双向动力学”的高效运转，核心在于以潜动作（Latent Action）作为物理因果的“载体”，其本质是借助逆动力学编码器，将导致画面改变的动作转化为高维向量。该向量不对应特定的硬件控制序列，而是抽象、通用的“场景交互变化表征”。这种通用表征的引入，突破了具身通用大脑的两大训练瓶颈：一是摆脱了对动作标签的高度依赖，让模型仅凭观察前后画面变化就可以“由果推因”，从而深度盘活了“无标签原始数据”，从互联网上的海量视频中自主汲取通用物理常识；二是天然约束了隐空间边界，让隐空间注意力完全聚焦于动态交互动作本身，让机器人的决策更加精准，实现了数据能效的飞跃。

物理因果“载体”的建立，使得MWA成功实现了“先练脑，再练手”的训练闭环。在预训练阶段，模型可以充分运用互联网上的海量无标注视频等数据，从而建立起对客观世界的物理规律以及因果关系的认知。在策略训练阶段，模型以已沉淀的物理世界常识为基础，同时借助融合强化学习的方法，不再需要大量真机数据就能够将抽象的“场景交互变化表征”精准映射为硬件本体的控制指令。这种两阶段的训练模式，打破了对“动作标签”的高度依赖，真正为具身通用大脑走向多元场景、规模化部署提供了清晰且可行的演进路径。

在构建“长时序双向物理因果链”隐空间世界模型的同时，MWA从底层架构方面原生适配了强化学习机制，并深度耦合了强化学习训练范式，由此构建了“物理因果建模以及强化学习试错以及边界认知进化”的全新具身智能进化逻辑。
。

目前，行业数据集普遍存在着“重正轻负、样本单一”的共性问题，其中绝大多数由纯粹的正样本所构成，或者仅掺杂了极少量的负样本。这种单一的样本结构无法有效支撑强化学习所需要的稠密奖励训练，模型也缺少多维度样本对照以及边界约束，因此在面对真实工况中的异常扰动时，会极易由于认知缺失而陷入决策瘫痪，并且泛化能力也会不足。针对这一核心痛点，无界动力首创了AnyPhys负样本核心数据体系，运用把深层负样本、细粒度边界失稳样本、用于策略对齐的次优样本以及基准正样本进行深度交织的方法，构建出了高信息稠密性的物理边界坐标系，从而补齐了强化学习稠密训练所需的全维度样本短板。

无界动力摒弃了传统单一最大化成功奖励的模式，构建了一套能够自动区分正样本、负样本、次优样本以及边界样本的方法论，进而实现了强化学习所需的复杂稠密奖励设计。无需进行额外的人工标注，就可以充分复用那些带瑕疵的演示数据，由此显著增强了机器人实操的精度与泛化能力。例如在精密接插类任务中，基于机器人位姿搭建全局空间图，以末端三维距离为运动代价，对抵达目标的最短路径进行求解，借助剩余路径距离量化动作进度，清晰地辨别前进、倒退、停滞状态，从而实现对样本进行自动打分和分类。算法兼容离线模仿加权以及在线稠密奖励两类训练场景，在高精密插接任务实测中，噪声数据下任务成功率最高提升5倍。

目前，AnyPhys已累计沉淀了数万条专属的失败、失稳以及临界边界样本，成功构建起能够覆盖绝大多数工业、商业以及生活场景的物理失效知识库。依托于该体系，无界动力得以借助海量打滑、磕碰、飞溅等失败轨迹来反向推演物理临界阈值，从而精准建模不同工况条件下的物理稳定域，让每一次动作决策都可以拥有清晰的物理安全边界作为有力支撑。

实力见证：登顶具身智能权威榜单 RoboCasa

在斯坦福大学等顶尖机构所联合发起的具身智能权威榜单RoboCasa GR1 TableTop当中，无界动力与中科院自动化研究所共同发布的首个隐空间世界模型MWA-WALA，凭借75.2%的平均任务成功率成功刷新了行业纪录并荣登全球第一的位置，这一表现超越了英伟达GR00T-N1.6、大晓机器人ACE-EGO-0、小鹏DIAL以及高德ABot-M0等行业主流模型。

根据实际测试所获取的数据可以看出，MWA™-WALA相比第二名模型在任务成功率方面得以提升2.4%，同时其在多步骤连贯操作、受限空间物件拿取以及零散物件精准拾取等高频难点任务的处理过程中表现得尤为突出。

RoboCasa涵盖了多种非标厨房环境以及交互物件，并且引入了强随机光影与杂物干扰，因此它成为了目前检验具身通用大脑泛化能力最为严苛的仿真测试基准之一。MWA-WALA能够在强不确定性环境中稳定开展作业，其核心得益于对无标签原始数据所进行的深度激活处理。对比测试的结果表明，MWA-WALA的全场景泛化能力实现了大幅跃升，这以实测数据验证了无标签海量数据训练在攻克具身通用大脑泛化瓶颈以及推进多场景应用方面所具有的实际价值。

多元场景泛化：前沿技术创造商业价值

MWA™-WALA隐空间世界模型以长时序双向物理因果链为基础，借助AnyPhys负样本核心数据体系对深层负样本、细粒度边界失稳样本、次优样本以及基准正样本开展了深度交织处理，从而构建出了高信息稠密性的物理边界坐标系。这一方法得以让模型对物理临界阈值进行反向推演，精准刻画不同工况下的物理稳定域，让每一次动作决策都可以拥有清晰的物理安全边界作为有力支撑。

这种体系摒弃了传统单一最大化成功奖励的模式，运用能够自动区分正样本、负样本、次优样本以及边界样本的方法论，成功实现了强化学习所需的复杂稠密奖励设计。借助这一设计，无界动力得以充分复用带瑕疵的演示数据，在精密接插类任务中对全局空间图以及末端三维距离开展了量化处理，自动识别前进、倒退以及停滞状态，从而实现了样本的自动打分与分类。该方法兼容离线模仿加权与在线稠密奖励两类训练场景，在噪声环境下使任务成功率最高提升5倍。

依托数万条专属的失败、失稳以及临界边界样本所沉淀的物理失效知识库，MWA™-WALA得以从RoboCasa基准测试的领先表现延伸至工业制造、商业服务以及生活场景，在强不确定性环境中稳定开展多步骤连贯操作、受限空间物件拿取以及零散物件精准拾取等高频任务。这一多元场景泛化能力直接转化为可量化的商业价值，包括部署成本的显著降低、作业效率的持续提升以及规模化落地的加速，推动前沿技术从实验室验证走向真实世界的生产力创造。

在对前沿技术路径进行探索的同时，无界动力始终聚焦于打造具身智能“通用大脑”以及“操作智能”，随着第二代机器人K15实现批量投产，无界动力正加速深化运用软硬一体解决方案来布局跨领域多元场景，从而将前沿技术全面转化为产业优势。

在工业制造领域当中，对高精度操作的容错率要求较低，而且需要机器人能够承担高强度、长周期以及高可靠性的不间断作业任务，这对系统的长程稳定性方面提出了巨大的挑战。面对这一挑战，无界动力与国际领先的汽车产业链企业以及顶级能源科技企业展开战略合作，成功赋予了模型在真实数据与现实挑战当中持续优化的机会，从而在严苛的工业标准之下实现了从理论泛化到工程级高可靠性的跨越。