上海创智学院与上海交通大学联合智动未来提出MINT模型:让VLA从模仿轨迹走向理解意图

2026年06月10日 17:05
本文共计575个字,预计阅读时长2分钟。
来源/具身研习社 责编/NuanxinXiaoMo 暖心小茉

出品:机器之心

机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。它们在固定场景、固定布局、固定光照下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。

但这些其实只是表面困境。真正困难的,也是 VLA 走向实际应用场景真正需要的,其实是:

组合泛化(Compositional Generalization):VLA 学会 A、B、C 技能之后,能否自动组合出 A→B、B→C、C→A 等技能?即能否通过组合串联技能,执行长程、复杂的任务?

小样本迁移(Few-shot / One-shot Transfer):学习新任务是否需要成百上千条演示?能不能像人类一样,看几次示教、甚至只看一次示教,就掌握一个新技能?

主流范式往往过度对齐原始轨迹本身,却缺少对 “轨迹背后意图” 的显式表征与推理,从而在泛化与迁移上受限。

针对上述问题,上海创智学院 × 上海交通大学 x 智动未来提出:

 

来源:RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/