研究称对 VLA 进行过度改写式初始化会削弱机器人执行能力，VLA 初始化应如何进行？

2026年06月15日 19:13

本文共计1055个字，预计阅读时长4分钟。

来源/具身研习社责编/huazi56 爱力方

出品：具身智能之心

现在很多VLA模型，都会先采用一个会看图、会理解语言的 VLM 当“大脑底座”，再接上动作模块，让它学会动作控制。

但一个关键问题却还没被深入研究：这个 VLM 底座里，到底哪些能力对机器人有用？如果要把它改造成 VLA，是应该大刀阔斧地重训，还是尽量保住原来的能力？

来自CUHK和 ACE Robotics 的团队，对这个问题做了一组系统实验。结论很直接：VLM 原本的能力很重要，初始化 VLA 时，改得越狠，往往越容易把有用的东西改坏。

标题：Rethinking VLM Representation for VLA Initialization

作者：Weifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li

机构：香港中文大学、香港理工大学、北京大学、ACE Robotics

论文：https://arxiv.org/pdf/2605.25802

代码：https://github.com/AFeng-x/Rethink_VLA_Initialization

先说结论

好的 VLA 初始化，不是把 VLM 彻底改造成具身相关的专用感知模型，而是在保住原有能力的基础上，精准补进和动作相关的新能力。

这篇论文给出的经验可以概括成五点：

预训练 VLM 的“通用表征”很值钱，不能轻易丢掉。

给 VLM 补具身能力有用，但要对症下药，不是补得越多越好。

LoRA 这种轻量改造方式，比全量微调更稳。

底座模型越强，保留原始表征的价值越大。

机器人数据也有帮助，但最好分阶段注入，而不是所有信号特征一起硬塞。

为什么这个问题重要？

现在VLA主流做法是先拿一个预训练好的 VLM，比如 Qwen3VL, PaliGemma2等作为 VLA 的 backbone。然后再接一个动作输出模块，让模型从机器人数据里学习如何执行任务。

但问题是：

VLM 会看图说话，不代表它天然会控制机器人。

那它原来的能力到底有多少能有效迁移到机器人控制？是否必须要训练它更好地理解空间、定位、第一视角、任务规划？训练时是全模型都改，还是只加一点适配参数？

过去很多工作默认“用更强的 VLM 当底座”或者“多加具身相关的感知数据”。这篇论文则把问题拆得更细：到底什么样的 VLM 表征，才适合拿来初始化 VLA？

研究怎么做：把 VLA 初始化拆成三个问题

作者没有只比较几个模型分数，而是把 VLA 初始化当成一个“表征设计问题”来研究。

来源：改得越狠，机器人反而越不会干活：VLA 初始化到底该怎么做？ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

通知

尊敬的用户

user

资讯

研究称对 VLA 进行过度改写式初始化会削弱机器人执行能力，VLA 初始化应如何进行？

相关图文

不再只是会走路的双臂平台：OpenHLM解放人形机器人全身移动操作能力

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

上海创智学院与上海交通大学联合智动未来提出MINT模型：让VLA从模仿轨迹走向理解意图

全球首个事件级世界模型，终结具身智能逐帧时代

小鹏机器人新框架集成VLM与隐式世界模型提升机器人物理直觉

VLA已死的背后：具身智能真正的难题从未被说清楚

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

算力新业务占比超两成行云科技上半年扣非净利润同比由亏转盈

欧盟计划投资114亿美元建设7座人工智能超级工厂

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

研究称对 VLA 进行过度改写式初始化会削弱机器人执行能力，VLA 初始化应如何进行？

相关图文

不再只是会走路的双臂平台：OpenHLM解放人形机器人全身移动操作能力

对话智源研究院理事长黄铁军：构建完整的世界模型是一条漫长的道路

上海创智学院与上海交通大学联合智动未来提出MINT模型：让VLA从模仿轨迹走向理解意图

全球首个事件级世界模型，终结具身智能逐帧时代

小鹏机器人新框架集成VLM与隐式世界模型提升机器人物理直觉

VLA已死的背后：具身智能真正的难题从未被说清楚

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

算力新业务占比超两成 行云科技上半年扣非净利润同比由亏转盈

欧盟计划投资114亿美元建设7座人工智能超级工厂

高盛：Meta广告业务已验证AI价值 巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险 智驾“小蓝灯”将被禁用 新车不得安装 老车无需拆除

字节跳动重组AI业务 整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布 行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

推荐专栏

爱力方

机器人大讲堂

下一篇

算力新业务占比超两成行云科技上半年扣非净利润同比由亏转盈

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态