跨维智能推出Dexterity-BEV框架，为机器人数据建立统一空间底座

2026年06月12日 13:43

本文共计5395个字，预计阅读时长18分钟。

来源/互联网责编/LehuoChufang 乐活厨房

BEV技术正在切入具身智能领域：借助跨维度方法，将机器人数据推上Scaling的快车道。

具身智能当前所面临的核心困境，与自动驾驶在若干年前所遭遇的瓶颈存在高度相似之处，其中两者都深陷于数据瓶颈与长尾场景的泥沼之中。

在过去的数年里，自动驾驶行业已经用实践证明了一点：能够率先将真实的物理世界映射并整合进一个统一的、可计算的数字空间中的参与者，便能率先获取进入规模化竞争阶段的“入场券”。

但在最初阶段，这件事的认知并不是立即就得以完全形成的。

在早期的纯视觉多相机系统架构中，各摄像头独立进行感知处理。其中，前向摄像头负责采集前方景象，侧向摄像头则负责捕捉侧面环境，它们分别生成各自的检测结果。随后，这些来自不同视角的结果被拼接并整合，最终交由规划系统进行统一决策。其核心问题在于，拼接所得的数据仍停留在图像坐标系中，并未映射至真实的物理世界坐标系下。因此，一旦视角、光照或场景发生显著变化，其感知性能便会随之急剧下降。数据规模的持续增长，反而会加剧这种缺乏统一表征的各自为政的混乱局面。

BEV，即鸟瞰视图（Bird’s-Eye View），就是那把钥匙。它真正改变行业的地方在于，并非仅仅为工程师提供了一张“鸟瞰图”，而是成功地将来自多个相机、多种传感器以及多任务处理的输出信息，统一整合到了一个能够被规划系统直接消费和利用的物理坐标系之中。正是借助于这一转变，自动驾驶完成了一次关键性的跃迁：其感知与理解的基础，从依赖在二维图像中推测三维世界，转变为了直接在统一的物理空间坐标系里理解并表征这个世界。

当前，具身智能领域正面临着与之类似的路口。机器人数据源自于不同的相机、不同的机器人本体、不同的坐标系以及不同的操作者。由于缺乏一个统一的表征空间，数据堆叠得越多，系统反而会越趋混乱——这并非实现了规模化的效益，而更像是一种熵增的爆发。

跨维智能所提出的 Dexterity-BEV 方案，其核心目标在于对具身智能领域进行一次系统性的重构工作：将视觉输入信息、机器人内部状态参数以及目标动作指令统一对齐到相同的参考系当中，从而使得机器人数据首次真正具备了能够支撑规模化训练的空间基础。这项工作可以被理解为是将 BEV 方法论系统性地推进到具身智能数据基础设施层面的一次尝试。

无秩序的Scale，只会演变为熵暴

今天的具身智能行业非常热闹。

机器人本体硬件持续迭代更新，新的研究数据集相继发布，遥操作系统、人类第一视角采集数据以及仿真生成数据也处于快速扩张之中。由此可见，具身智能领域正步入一个数据规模与多样性同步增长的新阶段。

文本可以被统一组织成 token 的形式，图像数据也拥有相对稳定的数据范式，然而机器人数据与文本及图像数据存在本质上的差异。机器人数据天然呈现异构特性，以一条机器人操作数据为例，其中可能同时包含多视角图像、深度信息、相机参数、关节状态、末端轨迹、语言指令、任务成败判定以及真实反馈等多个维度的信息。加之各机器人本体规格各不相同，数据集的坐标系互不统一，相机采集视角存在差异，操作人员的动作节奏也各有不同；更为复杂的情况是，UMI、Egocentric等全新的数据采集范式还在持续涌入。人类的身高、臂展、视角以及动作习惯，本质上也构成了一种新的"异构本体"，进一步加剧了数据之间的差异。因此，具身智能所面临的并非单一的"数据量问题"，而是一个更为棘手的双重困境：一方面，高质量的真实交互数据仍然稀缺且获取成本高昂；另一方面，已经采集到的数据又呈现高度异构的特征，难以实现互通、难以进行统一训练、也难以跨机迁移。

这正是具身智能领域所面临的现实情况：行业既需要积累更多的数据资源，同时也需要建立一套能够将数据转化为可训练、可迁移、以及可复用资产的底层秩序。如果缺乏统一的秩序约束，数据规模的扩张便难以构成正向的规模化发展，反而会走向熵暴（entropy explosion）。

Dexterity-BEV：

01 给具身智能装上“统一空间坐标系”

Dexterity-BEV 的核心思路十分直接，旨在将来自多源、多视角与多本体的机器人数据，统一对齐到一个共同的 BEV 三维空间当中。

此方案并非对多视角图像进行简单拼接，也不依赖于构建一套笨重的三维重建系统。Dexterity-BEV 的核心思路在于，借助一个统一的 BEV 对齐坐标系，将不同相机所捕捉的物体、空间关系以及操作目标，统一对齐到同一俯视参考空间之中。

此机制可被视作一个“虚拟正交相机”。无论真实相机的具体安装位置、拍摄视角，抑或是机器人自身的观察方向为何，所采集的数据最终均能被转化并映射到同一个俯视参考空间之中。如此一来，同一个物理任务便不再是互不兼容的二维图像碎片，而转化为了同一物理世界内可被学习的统一表达。

这一步骤所具有的意义十分重大。在过往的研究阶段，诸多VLA模型表面上似乎已掌握了任务执行能力，然而一旦相机视角发生改变、机器人基座产生移动、或场景布局发生变化，其性能表现便会出现显著下降。其原因十分清晰：模型所习得的并非真实的物理规律，而是特定固定视角条件下所形成的图像表征模式。

Dexterity-BEV 所要实现的核心转变在于，将模型从依赖二维图像进行动作推测的模式，引导至三维空间坐标系下的任务理解范式。

其核心思路在于，并非意在取代现有的2D大模型，而是将现有的2D大模型作为基础，为其补充空间维度的物理坐标信息，从而使其具备在3D物理世界中进行理解与操作的能力。

这也是 Dexterity-BEV 最值得讲的地方。

当前，具身智能领域正面临一个核心困境：一方面，纯粹的二维视觉语言动作模型（2D VLA）具备强大的语义理解能力，但其建模与推理过程局限于二维平面，缺乏对三维空间的充分建模与推理能力。另一方面，侧重于三维几何信息的重型方法，虽然能够提供几何约束，却面临高昂的实现成本与训练难度，且难以直接复用已有的二维视觉语言模型能力。

Dexterity-BEV并未选择完全摒弃现有架构。该方案保留了多视角RGB输入方式，并继续沿用成熟的二维视觉编码器与视觉语言模型。与此同时，它借助顶点图与顶点谱，为每一个视觉token注入相应的三维空间位置信息。

换句话说，该方法并非重新构建一个成本高昂的三维系统，而是在已有的视觉模型体系之上，为机器人补充了其最为缺失的关键要素：空间坐标信息。对于具备深度信息获取能力的设备，它能够借助深度图与相机标定参数，生成像素级的三维顶点表示；而对于更为常见的纯RGB相机，则可以通过顶点谱机制，为每个像素构建一组三维位置假设，并将其编码进视觉特征之中。

这就好比为二维图像成功附加了一套三维物理骨架。在这一过程中，语义能力得以保持，空间理解得到补充，而工程成本也未显著增加。这才是一种能够实现规模化的三维方案。

03 不只对齐视觉，还对齐动作

如果 Dexterity-BEV 仅仅实现图像在 BEV 空间中的对齐，这仍然不足以解决核心问题。机器人数据所面临的真正挑战在于，其动作数据同样缺乏统一性。

不同机器人本体之间存在极为显著的结构差异。无论是Franka机械臂、双臂协作平台，还是半人形机器人，即便执行完全相同的任务，它们所产生的关节轨迹也会截然不同。如果让模型直接以关节角度作为学习目标，那么其能力基本上就会被特定的硬件平台所限制。Dexterity-BEV所采用的策略，是将动作表征从具体关节的约束中抽离出来。

它并非让模型仅仅学习“某个关节转多少度”，而是转而学习末端执行器在该统一的BEV空间中应当到达什么具体位置、以何种姿态接近物体、应当遵循怎样的移动路径以及完成特定的任务。

更核心的要点在于，这些末端执行器的位姿表达并非任意给出的，而是被系统性地、进一步地对齐到了前文已经建立起来的统一BEV对齐坐标系当中。

由此便形成了一个完整且高效的闭环：视觉输入被统一表征在BEV空间中，机器人内部状态同样映射至该空间，而目标动作的规划亦基于此空间进行。输入与输出信息首次被置于同一个物理坐标系统内。这真正实现了感知与动作在空间表征层面对齐。

通俗点说，Dexterity-BEV 为不同的机器人、各式各样的相机以及千差万别的动作，提供了一把共通的“空间尺子”。那些曾经只能各说各话、彼此孤立的数据，如今，它们终于能够通过同一种物理语言进行交流与对话。

具身数据还有第三种混乱：时间。

对于同一项任务，不同操作者完成任务的速度存在差异，各个机器人执行动作的快慢也不尽相同，部分操作者中途会产生停顿，而另一部分则动作连贯。这些操作节奏上的差异，在很多时候并不反映任务本身的本质属性，但由于它们引入了额外的变异性，会使得模型的学习与训练过程变得更加困难。

Dexterity-BEV 在其数据处理管线中集成了跨轨迹的时序对齐机制，该机制能够对来自不同机器人本体、不同操作者以及不同数据集的操作轨迹序列进行时间尺度上的规整。其目的并非抹除任务本身固有的动作结构，而是通过进行弹性时间规整，最大程度地减少诸如“操作者动作快慢”这类无意义的个体差异，从而使得模型得以更加聚焦于习得任务本身的关键动作序列及其空间关联。

因此，Dexterity-BEV 所实现的并非针对单一环节的局部优化，而是一套系统性的数据基础设施建设工作：涵盖空间维度的对齐、动作表征的对齐、时序节奏的对齐以及数据管线的对齐。

Dexterity-BEV 实测验证强泛化能力

Dexterity-BEV 在实验设计方面也颇具匠心。该工作并未局限于在固定场景下追求优异的量化指标，而是着重评估了传统视觉语言动作模型（VLA）通常表现不佳的几类情形：相机视角发生改变、机器人基座受到扰动、场景布局发生变化，以及跨机器人平台进行能力迁移。

在仿真实验环节中，Dexterity-BEV 与 π0 以及 X-VLA 等具备较强竞争力的基线方法，在 LIBERO 与 RoboTwin 2.0 两个基准平台上开展了系统性的对比评估。尤其值得指出的是，当相机视角、机器人基座位置与场景布局等条件遭遇显著扰动时，传统的二维视觉语言动作方法的成功率会出现明显下降的情况，而 Dexterity-BEV 则依然能够维持稳定的性能表现。

在真实机器人场景中，Dexterity-BEV 涵盖了四种不同类型的双臂协作平台，并执行了多个长程任务，其中包括诸如折叠纸盒、折叠布料、舀取爆米花以及递送书籍在内的多种任务。这些任务远非简单的抓取与放置操作，而是涉及到对刚体对象、柔性物体以及颗粒状物质进行操作，同时需要双臂协同工作并与人类进行交互的复杂任务。

[BEV视频_终0609.mp4]

此类任务场景与现实物理世界的交互模式更加接近，因而也更能有效揭示模型究竟是在进行单纯的视觉记忆，还是在真正理解物理规律。

Dexterity-BEV 所呈现出的实验结果有力地表明，当机器人数据被系统性地对齐并整合到统一的 BEV 空间中时，模型的泛化能力便真正获得了可扩展的物理空间基础。

BEV 进入具身智能，打通Scaling关键路径

笔者提出了一个重要的判断：Dexterity-BEV 的核心意义，不仅仅在于其模型性能的提升，更在于它标志着具身智能从“堆砌数据”迈向“构建数据秩序”的标志性转变。

过去，行业曾广泛讨论一个维度的竞争：谁采集了更多的小时级数据，谁拥有更多的机器人本体，谁完成了更多的任务类型。然而，如果这些数据无法进行统一训练、不能实现跨机型迁移，也难以复用到新的应用场景当中，那么数据规模的扩大，反而会使每一份数据都愈发像一座座难以互通的孤岛。

Dexterity-BEV 提出了另一种解决思路：首先致力于构建统一的物理空间，然后在此基础上推进数据规模化的工作。这一思路与自动驾驶领域当年BEV范式所引发的变化具有高度相似性。BEV范式促使自动驾驶从依赖多相机图像感知，转向实现统一空间的理解；而当前，Dexterity-BEV 正在尝试推动具身智能从杂乱的机器人轨迹，发展为统一的感知—动作物理表达。

如果说过去的具身智能还停留在“看见世界”的层面，那么借助BEV技术，它开始有机会真正地“组织世界”。这可以被看作是具身模型在实现规模化之前，所必须补充完善的一层数据基础设施。

具身智能所迈向的下一阶段，并非仅仅停留在模型体量更大、数据规模更多、机器人造价更高的层面。

真正决定行业能否跑起来的关键要素，在于数据是否能够实现统一、动作是否能够实现迁移以及经验是否能够跨机器人进行复用。

Dexterity-BEV 的真正价值在于，其目标并非仅仅追求构建一个更强大的策略模型，而是致力于为具身智能领域着手构建一套可规模化的数据秩序。

从这一角度来看，BEV技术切入具身智能领域，并非仅仅是引入了一项普通的技术应用，而是对前期发展中所欠缺基础能力的一次必要补足。

自动驾驶领域曾享受到BEV技术带来的显著优势，这一红利现在正开始向机器人领域转移。

而跨维智能所致力于的工作，旨在为具身智能真正迈向规模化发展阶段扫清障碍，其核心举措是在追求规模化扩展之前，首先为其构建起必要的数据秩序与基础架构。

-本文系量子位授权转载-

本文内容及相关权利由作者持有，任何未经书面授权的个人或组织，均不得对本文进行任何形式的转载、复制、改编或商业使用。对于违反本声明的行为，作者将依法追究其法律责任。

来源：BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道 | 互联网

声明：本文来自互联网，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。