出品:机器之心
过去几年,自动驾驶行业已经证明了一件事:谁先把真实物理世界组织进统一的数字空间,谁就先拿到规模化的入场券。
但当年,这件事并不是一开始就想明白的。
早期的纯视觉多相机方案,每个相机自己感知自己的,前摄看前面、侧摄看侧面,各出各的检测结果,再拼到一起交给规划系统。问题是,拼出来的东西在图像坐标里,不在物理世界里。视角一变、光线一变、场景一变,性能就掉。数据堆得越多,各自为政的混乱局面就越严重。
BEV,Bird's-Eye View,就是那把钥匙。它真正改变行业的地方,不是给了工程师一张“鸟瞰图”,而是把多相机、多传感器、多任务输出,统一压进了一个可被规划系统直接消费的物理坐标系。自动驾驶因此完成了一次关键跃迁:从在图像里猜世界,到在物理空间里理解世界。
今天,具身智能正站在同一个路口。机器人数据来自不同相机、不同本体、不同坐标系、不同操作者。没有统一空间,数据堆得越多,就越混乱——不是规模化,是熵暴。
跨维智能提出的 Dexterity-BEV,正是要在具身智能里重做一次这样的重构:把视觉输入、机器人状态和目标动作,对齐到同一个参考系里,让机器人数据第一次真正具备可规模化训练的空间底座。这可以被看作是一次把 BEV 方法论系统性推进到具身智能数据基建层的尝试。