出品:机器之心
机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。它们在固定场景、固定布局、固定光照下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。
但这些其实只是表面困境。真正困难的,也是 VLA 走向实际应用场景真正需要的,其实是:
组合泛化(Compositional Generalization):VLA 学会 A、B、C 技能之后,能否自动组合出 A→B、B→C、C→A 等技能?即能否通过组合串联技能,执行长程、复杂的任务?
小样本迁移(Few-shot / One-shot Transfer):学习新任务是否需要成百上千条演示?能不能像人类一样,看几次示教、甚至只看一次示教,就掌握一个新技能?
主流范式往往过度对齐原始轨迹本身,却缺少对 “轨迹背后意图” 的显式表征与推理,从而在泛化与迁移上受限。
针对上述问题,上海创智学院 × 上海交通大学 x 智动未来提出: