出品:具身智能之心
现在很多VLA模型,都会先采用一个会看图、会理解语言的 VLM 当“大脑底座”,再接上动作模块,让它学会动作控制。
但一个关键问题却还没被深入研究:这个 VLM 底座里,到底哪些能力对机器人有用?如果要把它改造成 VLA,是应该大刀阔斧地重训,还是尽量保住原来的能力?
来自CUHK和 ACE Robotics 的团队,对这个问题做了一组系统实验。结论很直接:VLM 原本的能力很重要,初始化 VLA 时,改得越狠,往往越容易把有用的东西改坏。
标题:Rethinking VLM Representation for VLA Initialization
作者:Weifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li
机构:香港中文大学、香港理工大学、北京大学、ACE Robotics
论文:https://arxiv.org/pdf/2605.25802
代码:https://github.com/AFeng-x/Rethink_VLA_Initialization
先说结论
好的 VLA 初始化,不是把 VLM 彻底改造成具身相关的专用感知模型,而是在保住原有能力的基础上,精准补进和动作相关的新能力。
这篇论文给出的经验可以概括成五点:
预训练 VLM 的“通用表征”很值钱,不能轻易丢掉。
给 VLM 补具身能力有用,但要对症下药,不是补得越多越好。
LoRA 这种轻量改造方式,比全量微调更稳。
底座模型越强,保留原始表征的价值越大。
机器人数据也有帮助,但最好分阶段注入,而不是所有信号特征一起硬塞。
为什么这个问题重要?
现在VLA主流做法是先拿一个预训练好的 VLM,比如 Qwen3VL, PaliGemma2等作为 VLA 的 backbone。然后再接一个动作输出模块,让模型从机器人数据里学习如何执行任务。
但问题是:
VLM 会看图说话,不代表它天然会控制机器人。
那它原来的能力到底有多少能有效迁移到机器人控制?是否必须要训练它更好地理解空间、定位、第一视角、任务规划?训练时是全模型都改,还是只加一点适配参数?
过去很多工作默认“用更强的 VLM 当底座”或者“多加具身相关的感知数据”。这篇论文则把问题拆得更细:到底什么样的 VLM 表征,才适合拿来初始化 VLA?
研究怎么做:把 VLA 初始化拆成三个问题
作者没有只比较几个模型分数,而是把 VLA 初始化当成一个“表征设计问题”来研究。