出品:具身释界
最近机器人领域又来了一篇很有意思的技术报告:Galaxea G0.5 Technical Report。
这篇论文讲的是一个新的 Vision-Language-Action,也就是 VLA 模型:G0.5。
如果只用一句话概括它的核心思想,那就是:
与其让大模型只负责“看懂”和“理解指令”,再把动作交给另一个动作专家,不如让同一个大模型自己完成推理、规划和动作生成。
换句话说,G0.5 想做的不是给机器人外挂一个“会看图的大脑”和一个“会动的手”,而是把看、想、定位、规划、行动,全部塞进同一条自回归 token 序列里。
这听起来有点像机器人版本的“边想边说”,只不过它最后说出来的不是文字,而是机器人动作。
1. 现在的 VLA 模型,到底哪里不对劲?
先简单补一下背景。
VLA 模型的目标,是让机器人能根据图像和语言指令直接行动。比如你对机器人说:
把毛巾放进水槽里。
机器人需要先看懂场景,知道毛巾在哪、水槽在哪,然后规划动作,最后控制机械臂完成任务。
过去几年,主流做法大概是这样的:
用一个预训练视觉语言模型,也就是 VLM,负责看图和理解语言;
再接一个单独训练的动作专家,比如 diffusion 或 flow-matching 模块;
动作专家根据 VLM 提供的特征,输出连续控制动作。
这个方案很实用,因为动作专家生成连续动作比较高效。但它有一个潜在问题:
VLM 被降级成了“上下文编码器”。
也就是说,大模型只负责把图像和语言压缩成一段特征,真正决定机器人怎么动的,是后面的动作专家。
这就有点浪费了。
因为大模型最厉害的地方,本来就是语言理解、链式推理、上下文学习、根据 prompt 调整行为。但在这种架构里,这些能力很难直接进入动作生成过程,只能通过一个压缩后的 hidden state 间接影响动作。
G0.5 的作者认为,这不是最理想的路线。
他们想回到一个更直接的思路:
让 VLM 自己成为 action generator。
也就是让模型像生成文字一样,直接生成机器人动作 token。
2. G0.5 的核心:一个模型,一条序列,既推理又行动
G0.5 是一个自回归 VLA 模型。它的输入包括:
多视角 RGB 图像;
机器人 embodiment 信息,比如 R1-Lite、R1-Pro;
自然语言任务指令;
机器人 proprioception,也就是关节状态、夹爪状态等。
然后模型会在同一条序列里生成:
子任务描述;
目标物体框;
末端执行器运动轨迹;
动作提示;
最后的动作 token。
也就是说,G0.5 不是先“想完”再交给另一个模块去“动”,而是在同一个模型、同一个词表、同一个 next-token prediction 目标下,把推理和动作统一起来。

这张图非常关键。
图里可以看到,G0.5 会先输出一段类似 Chain-of-Thought 的内容,比如当前子任务是什么、关键物体在哪里。接着,它继续输出动作 token,比如左臂控制、右臂控制、夹爪动作等。
更重要的是,它不是死板地为每个身体部件都生成 token。如果当前右臂不需要动,右臂相关的 token group 就会被直接省略。
这意味着 G0.5 的动作生成是稀疏的、结构化的、按需的。
这解决了早期自回归 VLA 的一个大问题:动作 token 太多,推理太慢。
3. 为什么自回归动作生成以前不流行?
这里有个很现实的问题:机器人动作不是一句话。
如果机械臂每秒要控制很多次,每次动作又包含多个关节,每个关节还要离散成 token,那么动作序列会变得非常长。
早期自回归 VLA 模型,比如 RT-2、OpenVLA,把连续动作离散化后直接交给 VLM 预测。思路很优雅,但缺点也明显:
动作 token 数量爆炸。
这会带来两个问题:
第一,生成慢。机器人控制需要实时性,不能每个动作都等模型慢慢吐 token。
第二,学习难。很多关节在某些时间点根本不需要动,但模型仍然要为它们生成 token,浪费容量。
所以后来大家转向 VLM-as-Encoder 架构:让 VLM 看图和理解语言,让动作专家直接生成连续动作。
G0.5 的创新点在于,它没有放弃自回归路线,而是解决了动作 token 太多的问题。
它靠的是一个很重要的模块:跨机器人动作编码器 ActionCodec。
4. ActionCodec:把不同机器人动作压进同一个词表
G0.5 面对的不是单一机器人,而是多种 embodiment。
有的机器人是单臂,有的是双臂,有的有移动底盘,有的还有 torso。不同机器人的自由度、控制频率、动作空间都不同。
如果每种机器人都单独设计动作头,那模型很难真正做到跨 embodiment 泛化。
G0.5 的做法是:先把不同机器人的动作统一成一个结构化动作空间。
论文里把动作空间拆成五类:
left_control:左臂控制;
left_gripper:左夹爪;
right_control:右臂控制;
right_gripper:右夹爪;
lower_body:下半身或移动底盘相关控制。
整体被统一到一个 27 维动作空间里。
然后,模型不是把整个动作向量拍扁后离散化,而是先按身体部件分组,再用残差向量量化,也就是 RVQ,把连续动作压缩成离散 token。

这张图可以这样理解:
机器人动作先被拆成几个语义对齐的 motion parts,比如左臂、右臂、夹爪、底盘。每个部分分别编码,再进入统一的 action vocabulary。
这样做有三个好处。
第一,跨机器人共享动作词表。不同 embodiment 可以用同一套 token 表示动作。
第二,动作语义更清晰。左臂动作、右臂动作、底盘动作不会全部混在一个扁平向量里。
第三,只预测活跃部件。如果某一步只有左臂在动,那右臂 token 可以不生成。
这就是 G0.5 能继续走自回归路线的关键。它不是暴力生成所有动作,而是把动作变成了更紧凑、更结构化的 token 序列。
5. Native CoT:不是“先规划再行动”,而是“推理本身参与行动”
G0.5 另一个重要设计,是它的 Native Chain-of-Thought。
很多机器人模型也会用中间推理,比如让模型预测子任务、物体框、路径点。但这些通常只是辅助训练信号,或者是外部规划模块的输出。
G0.5 不一样。
它把推理内容直接放进动作生成序列里。
也就是说,模型在输出动作之前,可以先输出:
Subtask:当前子任务,比如“拿起毛巾”;
BBox:关键物体的位置框,比如毛巾、水槽;
Trace:末端执行器的 2D 轨迹;
ActionHint:动作提示,比如“移动时闭合左夹爪”。
然后模型继续在同一条序列里输出动作 token。

这张图展示了 G0.5 的完整序列模板。
前半段是 conditioning segment,包括图像、机器人类型、任务指令和状态;后半段是 generative segment,也就是模型真正要预测的部分。
重点是:CoT 和动作 token 都在 generative segment 里,都用同一个 cross-entropy loss 训练。
这意味着推理不是外挂模块,不是训练时的辅助题,而是动作生成的一部分。
可以把它想象成:
机器人不是先在脑子里想完,再让手去执行;而是边识别、边拆解、边定位、边输出动作。
这也是论文标题背后最有意思的味道:让 VLM 重新成为 actor,而不是 encoder。
6. 视觉记忆:机器人不能只看当前这一帧
机器人做长任务时,只看当前图像往往不够。
比如机械臂可能挡住目标物体;物体刚刚被移动过,当前帧看不到它之前的位置;任务执行失败后,机器人需要知道自己刚才做错了什么。
所以 G0.5 加入了视觉记忆模块。
不过,最简单的办法——把过去几帧图像 token 全部堆到 Transformer 里——成本太高。因为注意力计算会随着 token 数量快速增长。
G0.5 借鉴了已有的 memory-augmented VLA 思路,在视觉编码器里加入 factorized spatial-temporal attention。
简单说,就是:
先在空间维度上理解每一帧;
再在时间维度上融合几秒钟历史;
最后在较高层丢掉历史 token,控制推理延迟。
论文里使用的是 6 帧视觉输入,间隔 1 秒,覆盖约 5 秒历史。训练时还会随机丢掉 30% 历史帧,避免模型过度依赖历史信息。
这个设计对长时程任务尤其重要,因为真实机器人不是在静态图片上做选择题,而是在一个不断变化、经常被遮挡、还可能失败的物理世界里行动。
7. 预训练数据:14 种机器人,100M VQA 样本
G0.5 的预训练数据也很大。
机器人数据部分覆盖了 14 种 embodiment,包括真实机器人和仿真机器人。所有动作都被映射到统一的 27 维动作空间。

从这张图可以看到,预训练数据里包含多个不同形态的机器人平台。论文的目标不是训练一个只会操控某台机械臂的模型,而是训练一个更通用的机器人动作基础模型。
此外,论文还分析了预训练语料中的动作词和物体词分布。

这里有个很有意思的现象:动作和物体都是典型长尾分布。
高频动作集中在 pick、place、move、put 这类通用操作上;高频物体则是常见桌面或家庭物品。
这解释了 G0.5 在 pick-and-place 和开放空间移动放置任务上表现很强,也解释了它在一些柜门、微波炉、半透明抽屉这类 container-interaction 任务上仍然有短板。
除了机器人数据,G0.5 还混合了约 100M 视觉问答数据,包括:
约 50M 通用网页 VQA;
约 50M embodied VQA;
约 5M 内部自动标注 VQA。
训练时,VQA 样本和动作样本按 1:4 混合。所有样本都走同一个 next-token prediction 目标。
这很关键:G0.5 没有把语言理解、CoT、动作生成分成多个任务头,而是把它们都当成 token 生成问题。
8. 实验结果:G0.5 到底强在哪里?
论文做了非常多实验,覆盖真实机器人、仿真 benchmark、零样本部署、语言跟随和长时程任务。
我们挑几个重点来看。
8.1 DROID 零样本:不用微调,直接上真实机器人
DROID 是真实 Franka 机械臂平台。G0.5 在没有针对该机器人设置微调的情况下,直接做 10 个 tabletop manipulation 任务。
任务包括:
把胡萝卜或桃子放进碗里;
把积木放到指定颜色盘子上;
把毛巾或笔放进抽屉;
把碗向左移动;
把毛巾从碗里拿出并放到盘子上;
把积木放进抽屉并关上抽屉。

结果是,G0.5 平均成功率达到 82.5%,高于 π0.5-DROID 的 57.5% 和 MolmoAct2-DROID 的 52.0%。

这个结果说明,G0.5 的预训练确实学到了一些可以迁移到新机器人平台的动作和语言 grounding 能力。
不过这里也暴露了一个问题:G0.5 对低对比度、半透明表面比较敏感。比如抽屉定位任务里,如果没有明显视觉标记,它容易找不准抽屉开口。加上橙色高对比度标记后,表现明显提升。
这说明,G0.5 的动作架构很强,但底层感知仍然可能成为瓶颈。
8.2 仿真 benchmark:LIBERO、RoboTwin、SimplerEnv 都很强
G0.5 在多个标准仿真 benchmark 上也取得了不错的结果。
在 Bridge-SimplerEnv 上,G0.5 平均成功率达到 87.3%,高于表中所有对比方法。
在 RoboTwin 2.0 上,G0.5 平均成功率达到 93.3%,在 clean 和 randomized setting 下都表现稳定。
在 LIBERO 上,G0.5 平均成功率达到 98.9%,并且在 Long suite 上表现尤其强。
这些 benchmark 的意义在于,它们分别测试不同能力:
LIBERO 测试指令跟随、空间推理、物体识别和长时程 manipulation;
RoboTwin 测试双臂协同控制;
SimplerEnv 测试 BridgeData/WidowX 风格的语言条件操作。
G0.5 在这些任务上都表现强,说明它不是只针对某个机器人或某个任务集调出来的模型。



8.3 BEHAVIOR-1K:长时程家庭任务才是真考验
我认为论文里最有说服力的一组实验,是 BEHAVIOR-1K Challenge。
这是一个长时程家庭移动操作 benchmark,包含 50 个完整 household tasks,比如整理、做饭、清洁、搬运等。每个任务平均 6.6 分钟,最长可达 14 分钟。
这和普通 pick-and-place 不是一个难度级别。
机器人不仅要移动,还要双臂操作,还要在房间级环境里持续完成多个子目标。
在这个 benchmark 上,G0.5 使用单个 checkpoint,4 epochs 后 Task Success Score 达到 0.3136。
对比一下:
竞赛第一名 RLC:0.2605,但用了 4 个 checkpoint;
π0.5 训练 4 epochs:0.2626;
G0.5 训练 1 epoch:0.2904;
G0.5 训练 4 epochs:0.3136。

这个结果很关键。
它说明 G0.5 不只是短任务强,在更复杂的长时程移动操作任务里,也能通过单个模型学到比较通用的控制能力。
论文认为,主要原因有三点:
第一,结构化动作分解让 navigation 和 manipulation 在 token 空间里更容易解耦。
第二,预训练数据里的 pick-and-place 分布,让模型在开放空间移动和放置类任务上有明显优势。
第三,视觉记忆预训练让模型更擅长理解场景随时间变化,即使后训练阶段只用单帧输入,也能保留一部分长期任务优势。
8.4 真实机器人微调:R1-Lite 和 R1-Pro 上都能打
论文还在真实 R1-Lite 和 R1-Pro 机器人上做了微调评测。
任务包括:
折毛巾;
折纸箱;
文具盒打包;
盒子搬运和堆叠。

这些任务都不简单。
折毛巾涉及柔性物体操作,折纸箱涉及接触丰富的双臂协作,文具盒打包涉及拉链和小物体,盒子堆叠则要求空间对齐和稳定放置。
在六个真实任务设置中,G0.5 平均成功率达到 76.7%,高于 π0.5 的 53.3% 和 GR00T-N1.7 的 24.4%。
平均 process score 方面,G0.5 为 129.2,π0.5 为 105.2,GR00T-N1.7 为 68.9。

这组结果说明,在相同微调数据和相同评测协议下,G0.5 的优势不是只来自训练预算,而更可能来自预训练 backbone 和架构设计。
9. Pick-and-Place:语言跟随能力到底有没有更强?
机器人任务失败有两种常见原因。
一种是语言没听懂。比如你让它拿黄色工具刀,它去拿了剪刀。
另一种是听懂了,但动作没做好。比如确实去抓目标物体了,但没抓起来,或者没放进容器。
为了区分这两种情况,论文设计了 Pick-and-Place Benchmark。
场景里有 16 个随机物体和容器,机器人要根据语言指令找到目标物体并放进目标容器。
指标分成两个:
Language Following Rate:是否朝正确目标物体行动;
Task Success Rate:是否最终完成抓取和放置。

G0.5 在没有任何 PP-specific post-training 的情况下,zero-shot 就达到:
Language Following:65.6%
Task Success:59.4%
随着后训练数据增加到 50H,G0.5 达到:
Language Following:84.4%
Task Success:75.0%
相比之下,π0.5 在同样 50H 设置下分别为:
Language Following:68.8%
Task Success:65.6%

这个结果支持论文的一个核心观点:
当动作生成仍然由 VLM 自己完成时,VLM 的语言理解能力更容易保留下来,并且能更直接影响动作。
这也是 G0.5 反复强调的“VLM-as-Actor”路线优势。
10. 最有意思的实验:CoT 到底有没有用?
很多人看到机器人 CoT,第一反应可能是:这是不是只是看起来很漂亮?机器人真的会因为“先想一下”而做得更好吗?
论文在第 5.6 节专门做了一个消融实验。
它固定同一个预训练 G0.5 checkpoint,不微调参数,只在推理时切换:
动作头:AR action token vs Flow-Matching head;
CoT:开启 vs 关闭。
任务包括:
PP Bench,单阶段任务;
Air Fryer,五阶段长任务;
Cook Bacon,五阶段长任务。
结果很有意思。
在 PP Bench 这种单阶段任务上,CoT 带来的提升很小。因为任务只有一次 grounding,模型没太多机会从阶段性推理中受益。
但在 Air Fryer 和 Cook Bacon 这种长任务上,CoT 提升明显。
比如 AR action token 模式下:
Air Fryer progress score 从 2.4 提升到 3.8;
Cook Bacon progress score 从 1.5 提升到 3.4。

这说明 CoT 的价值主要出现在多阶段任务里。
每完成一个阶段,机器人都需要重新理解场景、定位目标、执行当前子目标。此时,如果模型能在动作前先生成子任务和物体框,确实能帮助动作更稳。
还有一个很有意思的定性观察:
论文发现,prompt 的措辞会影响机器人行为。
比如:
“push it in hard”
“vertically”
“press / push in / close”
这些轻微的语言变化,会改变机器人在某些 rollout 中的动作和成功率。
这不是论文的严格量化结论,但它暗示了一个很重要的方向:
如果动作生成仍然是自回归语言模型的一部分,那么机器人行为可能更容易被自然语言 prompt 细粒度控制。
这点非常值得后续研究。
11. G0.5 的局限性
当然,这篇论文不是说 G0.5 已经解决了所有机器人问题。
论文自己也承认了几个局限。
第一,低对比度和半透明目标仍然困难。
比如抽屉插入、半透明柜体定位这类任务,G0.5 仍然容易受视觉感知限制影响。这说明自回归架构不能自动解决所有 perception 问题。
第二,视觉记忆仍然很短。
G0.5 的视觉记忆覆盖的是几秒钟历史,而真正的家庭任务可能需要分钟级甚至更长的记忆。比如机器人需要记住哪些东西已经搬过、哪些柜子已经打开、哪个房间还有目标物体。
第三,lower-body 控制没有单独充分评估。
虽然 G0.5 的统一动作空间包含 lower-body,但论文没有专门拆出来评估这部分能力。
第四,prompt 控制还只是初步观察。
论文看到语言措辞会影响动作,但还没有系统研究不同 prompt 如何稳定控制机器人行为。
12. 这篇论文真正重要的地方
G0.5 的意义,不只是 benchmark 分数高。
它更像是在重新提出一个路线问题:
机器人基础模型到底应该是 VLM-as-Encoder,还是 VLM-as-Actor?
过去的主流趋势是 VLM-as-Encoder:VLM 看懂世界,动作专家负责行动。
G0.5 则坚定站在 VLM-as-Actor 一边:VLM 不只是理解器,它应该直接成为决策者和动作生成器。
为了让这条路线可行,G0.5 做了三个关键补丁:
1. 用结构化 ActionCodec 压缩动作 token,解决自回归动作生成效率问题;2. 把 CoT 放进同一条动作生成序列,让推理真正参与行动;3. 加入视觉记忆,让模型利用短时历史应对长任务和遮挡。
所以,G0.5 的核心不是“机器人会说出推理过程”这么简单。
它真正想证明的是:
只要动作表示足够高效,自回归 VLM 可以不只是语言和视觉模型,也可以成为机器人策略模型。
这可能是 VLA 领域一个值得关注的方向转折。
13. 最后
如果把当前机器人 VLA 模型比作一个团队,主流方案像是:
一个聪明的观察员负责看图和理解语言,一个动作工程师负责真正控制机器人。
而 G0.5 想做的是:
让同一个模型既看懂、又思考、又行动。
这种路线未必会立刻替代所有 diffusion / flow-matching 动作专家,但它确实提出了一个非常有吸引力的方向:
未来的机器人,不一定只是“听懂命令后调用控制器”。
它可能会像语言模型生成回答一样,生成自己的行动过程。
只不过这一次,生成的不是一句话,而是一连串能改变物理世界的动作。
