数据对齐挑战下具身智能Scaling的熵减：论文揭示

2026年06月11日 13:59

本文共计4812个字，预计阅读时长17分钟。

来源/具身研习社责编/Zhuangdian 妆点人生

当前，AI、具身智能以及世界模型的热度正在持续爆发，整个赛道正处于野蛮扩张的状态。

新数据集、新的数据采集方式、新机器人本体以及新任务场景持续不断地涌现出来；数据时长、任务类型和硬件设备的数量均实现了翻倍的增长；

然而，伴随着这些增长，诸多问题也随之暴露了出来。数据、标准以及体系的全面泛滥的状况尤为突出，以至于用“无序”一词来概括并不为过。

繁荣的表象之下，一个更为根本的问题开始浮现：在数据量持续增长的趋势下，这些数据是否真正具备了可用性？

与文本能够被统一编码为词元，以及图像通常遵循着相对稳定的视觉组织范式不同，符号式的数据由于缺乏与物理世界直接对应的感官基础，所能提供的参考价值相对有限。

机器人数据在本质上就具有异构的特性，其所涵盖的信息维度极为多样，包括了多视角图像、深度信息、相机参数、关节状态、末端轨迹、语言指令以及真实反馈等；与此同时，不同的机器人本体、坐标系、操作节奏，以及 UMI、Egocentric data 等新型数据采集方式，还在持续地放大这些数据之间的差异。

如果这些数据在无法实现互通、无法进行统一训练以及无法达成跨本体迁移的前提下被大规模积累，那么数据规模的持续扩大，非但不能提升性能，反而会进一步推高系统的熵值。这恰恰是当前具身智能领域所面临的、由数据无序性所引发的“熵增”挑战。

毫不夸张地说，在经历了初期的野蛮生长阶段之后，具身智能这一赛道正面临一个关键的转折点，它迫切需要开展一场针对数据层面的“熵减”行动。

近期，跨维智能的最新研究，着手构建数据基础设施，精准地切入了这一核心痛点。这是一项面向规模化训练的数据系统性工程：通过构建一个统一的感知与动作三维空间，并配套部署空间对齐、动作表达、时序规整以及数据管线，使得这些分散且异构的具身数据，能够具备进行统一训练与跨设备迁移的基础。

论文地址：https://arxiv.org/abs/2606.02274

项目链接：https://hnuzhy.github.io/projects/Dex-BEV/

01 .

堆数据难破局，统一数据

是具身Scaling的根基

在Scaling law的驱动之下，快速积累数据已经演变成为各家获取下一场话语权的重要资本。

然而，由于不同本体之间存在显著差异，所采集的数据表现出高度的异构特性，使得对其进行统一整合面临极大困难。

当前，主流的视觉-语言-动作（VLA）或多模态世界模型（WAM）通常建立在二维视觉语言模型的基础之上，这类模型语义理解能力突出且工程实现门槛较低。然而，机器人的操作任务本质上发生于三维物理空间之中。模型如果仅仅依赖二维RGB图像作为输入，那么其决策过程极易受到相机视角、机器人位置以及场景布局等多重因素变化的干扰。这导致模型看似掌握了任务技能，实际上可能仅仅是对特定画面特征进行了拟合，而非对底层三维空间与物理规律的真实理解。

另一类旨在弥补空间理解能力的3D表征路线，例如点云、体素、深度图或三维空间编码，虽然能直接表达三维结构，但这类方法通常需要更高的计算与存储成本，同时难以充分利用2D视觉语言模型在海量图像与视频数据上已经习得的丰富语义知识。

更关键的是，机器人数据本身缺乏统一坐标。具体来说，不同数据集采用了不同的相机设置，不同机器人具有各异的本体结构，不同平台定义了多样的工具中心点，不同操作者也表现出不同的动作节奏。这些差异并不反映任务本质，然而模型却可能将其视为额外的分布差异来学习。

因此，具身智能若要切实迈向规模化的发展阶段，仅凭对数据、模型与算力的持续堆叠是远远不够的。行业更迫切地需要构建一套完整的数据基础设施，其目的在于能够将原本分散异构的机器人数据，有效地整合并表达为可训练、可迁移、可复用的统一物理形式。Dexterity-BEV 研究方案所针对的，正是这一核心基础问题。

02 .

为无序具身数据实现熵减，

Dexterity-BEV 撑起Scaling根基

空间熵减：

像素升维，统一真实三维物理空间

视觉视角的不一致性，构成了机器人数据无序问题的主要来源。就同一项任务而言，在不同相机、不同机位以及不同拍摄角度下采集到的数据，会表现出截然不同的二维图像特征。对于模型而言，倘若缺乏有效的三维空间对齐机制，它所感知的将并非一个统一的物理任务，而仅仅是一系列在视觉分布上高度变化的数据片段。

Dexterity-BEV 借助构建起统一的 BEV 对齐坐标系（canonical BEV alignment frame），将多视角观察到的三维信息映射到共享空间当中。可以将其理解为一个虚拟的正交相机：从机器人操作区域的上方俯视任务场景，把不同相机所看到的物体、空间关系以及操作目标，统一投影到同一个俯视参考系之中。在这种处理方式下，由相机视角变化所带来的表征漂移被显著削弱。不同机位、不同视角下采集的数据，不再呈现互不兼容的状态，而是可以被转化为同一物理空间中具备可学习特性的表达形式。

为了适应真实应用场景中硬件条件的多样性，Dexterity-BEV方案并未将自身绑定于特定类型的传感器。针对具备深度信息获取能力的设备，该方案能够直接运用深度图与相机标定参数，生成像素级别的三维顶点表示。而针对更为常见的纯RGB相机，则通过顶点谱（vertex spectrum）机制，为每个像素构建一组潜在的三维位置假设，并利用轻量级的位置编码方式将此类信息注入视觉特征之中。通过这种方式，模型得以在最大程度上兼容并保留现有基于RGB图像的视觉模型能力，同时获得了对三维空间进行感知的能力，仅以较小的额外计算开销，便完成了从二维图像特征到三维物理表达的升维过程。

本体熵减：

全局坐标统一，打通跨机器人壁垒

在处理完视觉视角的混乱状况之后，具身数据还表现出更深一层的差异：其操作主体并不统一。

由于不同机器人具备了不同的尺寸、结构、自由度与运动学参数，且其各自的坐标系与工具中心点定义也存在差异，因此即使执行同一个“拿起物体”的任务，A机器人所产生的关节轨迹，往往无法直接迁移到B机器人之上。随着诸如UMI与人类第一视角数据等新型采集方式的出现，这种差异还会进一步被放大：不同个体的身高、臂展、视角以及动作习惯，在本质上也类似于一种“异构本体”。

Dexterity-BEV 所采用的核心技术策略，一方面是采用末端执行器的位姿来取代关节角作为动作表示，另一方面则是把来自不同机器人本体的状态与动作信息，进一步统一映射至前文所述的统一化的BEV对齐坐标系（canonical BEV alignment frame）当中。这意味着模型的学习范式发生了根本转变：它不再直接学习特定关节需要转动多少度，而是学习在统一的三维参考系内，末端执行器应当确定抵达位置、把握接近姿态、规划移动轨迹以及执行操作序列，从而完成整个任务。

为此，Dexterity-BEV 借助对工具中心点约定、机器人模型注册以及正向运动学计算所进行的统一化工作，将来自不同机器人平台的本体状态与目标动作，成功转化成了统一BEV参考系下的三维末端位姿。通俗地说，这一方法为不同的机器人、相机以及动作形式，赋予了一把共同的“空间尺子”。

这也构成了模型得以实现跨机器人任务泛化的核心机制，通过应对因硬件异构性所引发的数据分布偏移现象，显著降低了针对新平台的微调资源需求，进而使得同一套模型能够适配于多种不同类型的机器人设备。

时序熵减：

消除操作节奏之间的差异，对长序列动作数据进行规整化处理

轨迹时间尺度的不一致，构成了机器人数据所面临的第三重混乱。不同机器人平台之间存在运动速度上的差异，而不同遥操作员在动作快慢、停顿节奏以及操作习惯方面同样表现出显著不同。即便针对完全相同的任务，也可能生成在长度、速度和节奏等维度上差异极大的动作轨迹。这些差异并不反映任务的本质属性，反而会增加模型进行学习的难度。

为了解决这一问题，Dexterity-BEV方案引入了跨轨迹时序对齐机制。该机制的核心设计目标并非消除任务本身固有的动作结构，而是基于多数机器人操作过程近似为“准静态”的这一前提，首先对末端执行器的运动速度进行标准化处理，并重新对齐与轨迹关键点所对应的物理时间戳。通过这一规整化过程，来自不同机器人平台、不同操作者以及不同数据集的动作轨迹，便能够在更加统一的时间尺度下被纳入模型的训练流程之中。

经过对操作时序进行规整化处理后，模型得以避免对诸如“特定操作者的执行速度快慢”或“具体平台的运动速率高低”这类偶然性差异产生过度拟合，从而能够将学习重心更为集中地投入到掌握任务完成过程中的核心动作序列、空间关系模式以及内在操作逻辑之上。

空间、本体和时序这三个层面的对齐机制，共同实现了Dexterity-BEV在数据熵减方面的核心目标：即在处理异构数据时，能够保留那些对于任务理解有实际价值的差异性信息，同时有效消除那些源于采集方式或硬件不同而产生的、无实质意义的差异。

03 .

极致实测性能，全面超越业内基线

当前，绝大多数具身智能研究所开展的实测场景普遍趋于保守，其任务设计基本围绕着抓取、放置等短时序、低复杂度的常规操作展开。这类任务由于环境变量相对固定，模型通过针对特定场景进行适配与优化，往往便能获得可观的评测分数，但这使得模型的真实泛化能力与鲁棒性难以得到有效检验。与之形成鲜明对比的是，Dex-BEV 有意识地采用了长时序交互、面临动态扰动以及需跨设备适配等更高难度的测试场景，通过引入这些更贴近实际部署需求的复杂任务，旨在对模型性能进行更为客观与全面的验证。

在仿真的极限扰动测试环节当中，研究团队针对视角偏移、物体变动、位置随机以及长时序操作等真实复杂工况开展了系统模拟。传统的2D VLA模型在此类场景下表现出极差的适应能力，其任务成功率骤降至10%以下，充分暴露了二维表征方式所固有的局限性。相比之下，Dex-BEV在四类扰动任务中分别获得了92.8%、89.4%、91.0%和86.2%的成功率，平均成功率达到89.9%，其抗扰动能力全面超越了主流的2D方案。

本研究还借助四类差异化的双臂硬件平台，对布料折叠、礼盒装配、爆米花舀取、书籍交接等涉及易形变、强动态以及长时序操作的高难度任务开展了实测。对于传统模型而言，这类场景往往构成技术短板，在执行过程中极易出现轨迹偏移与操作失效等问题。实际测试的结果表明，Dex-BEV在性能上全面优于π₀和X-VLA等顶尖模型，在多项任务上的成功率均突破90%，从而展现出极强的跨硬件适配能力，真正实现了一次训练、多机复用的目标。