研究称对 VLA 进行过度改写式初始化会削弱机器人执行能力,VLA 初始化应如何进行?

2026年06月15日 19:13
本文共计1054个字,预计阅读时长4分钟。
来源/具身研习社 责编/huazi56 爱力方

出品:具身智能之心

现在很多VLA模型,都会先采用一个会看图、会理解语言的 VLM 当“大脑底座”,再接上动作模块,让它学会动作控制。

但一个关键问题却还没被深入研究:这个 VLM 底座里,到底哪些能力对机器人有用?如果要把它改造成 VLA,是应该大刀阔斧地重训,还是尽量保住原来的能力?

来自CUHK和 ACE Robotics 的团队,对这个问题做了一组系统实验。结论很直接:VLM 原本的能力很重要,初始化 VLA 时,改得越狠,往往越容易把有用的东西改坏。

标题:Rethinking VLM Representation for VLA Initialization

作者:Weifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li

机构:香港中文大学、香港理工大学、北京大学、ACE Robotics

论文:https://arxiv.org/pdf/2605.25802

代码:https://github.com/AFeng-x/Rethink_VLA_Initialization

先说结论

好的 VLA 初始化,不是把 VLM 彻底改造成具身相关的专用感知模型,而是在保住原有能力的基础上,精准补进和动作相关的新能力。

这篇论文给出的经验可以概括成五点:

预训练 VLM 的“通用表征”很值钱,不能轻易丢掉。

给 VLM 补具身能力有用,但要对症下药,不是补得越多越好。

LoRA 这种轻量改造方式,比全量微调更稳。

底座模型越强,保留原始表征的价值越大。

机器人数据也有帮助,但最好分阶段注入,而不是所有信号特征一起硬塞。

为什么这个问题重要?

现在VLA主流做法是先拿一个预训练好的 VLM,比如 Qwen3VL, PaliGemma2等作为 VLA 的 backbone。然后再接一个动作输出模块,让模型从机器人数据里学习如何执行任务。

但问题是:

VLM 会看图说话,不代表它天然会控制机器人。

那它原来的能力到底有多少能有效迁移到机器人控制?是否必须要训练它更好地理解空间、定位、第一视角、任务规划?训练时是全模型都改,还是只加一点适配参数?

过去很多工作默认“用更强的 VLM 当底座”或者“多加具身相关的感知数据”。这篇论文则把问题拆得更细:到底什么样的 VLM 表征,才适合拿来初始化 VLA?

研究怎么做:把 VLA 初始化拆成三个问题

作者没有只比较几个模型分数,而是把 VLA 初始化当成一个“表征设计问题”来研究。

来源:改得越狠,机器人反而越不会干活:VLA 初始化到底该怎么做? | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/