G0.5机器人开始实现边想边动

出品：具身释界

最近机器人领域又来了一篇很有意思的技术报告：Galaxea G0.5 Technical Report。

这篇论文讲的是一个新的 Vision-Language-Action，也就是 VLA 模型：G0.5。

如果只用一句话概括它的核心思想，那就是：

与其让大模型只负责“看懂”和“理解指令”，再把动作交给另一个动作专家，不如让同一个大模型自己完成推理、规划和动作生成。

换句话说，G0.5 想做的不是给机器人外挂一个“会看图的大脑”和一个“会动的手”，而是把看、想、定位、规划、行动，全部塞进同一条自回归 token 序列里。

这听起来有点像机器人版本的“边想边说”，只不过它最后说出来的不是文字，而是机器人动作。

1. 现在的 VLA 模型，到底哪里不对劲？

先简单补一下背景。

VLA 模型的目标，是让机器人能根据图像和语言指令直接行动。比如你对机器人说：

把毛巾放进水槽里。

机器人需要先看懂场景，知道毛巾在哪、水槽在哪，然后规划动作，最后控制机械臂完成任务。

过去几年，主流做法大概是这样的：

用一个预训练视觉语言模型，也就是 VLM，负责看图和理解语言；
再接一个单独训练的动作专家，比如 diffusion 或 flow-matching 模块；
动作专家根据 VLM 提供的特征，输出连续控制动作。

这个方案很实用，因为动作专家生成连续动作比较高效。但它有一个潜在问题：

VLM 被降级成了“上下文编码器”。

也就是说，大模型只负责把图像和语言压缩成一段特征，真正决定机器人怎么动的，是后面的动作专家。

这就有点浪费了。

因为大模型最厉害的地方，本来就是语言理解、链式推理、上下文学习、根据 prompt 调整行为。但在这种架构里，这些能力很难直接进入动作生成过程，只能通过一个压缩后的 hidden state 间接影响动作。

G0.5 的作者认为，这不是最理想的路线。

他们想回到一个更直接的思路：

让 VLM 自己成为 action generator。

也就是让模型像生成文字一样，直接生成机器人动作 token。

2. G0.5 的核心：一个模型，一条序列，既推理又行动

G0.5 是一个自回归 VLA 模型。它的输入包括：

多视角 RGB 图像；

机器人 embodiment 信息，比如 R1-Lite、R1-Pro；

自然语言任务指令；

机器人 proprioception，也就是关节状态、夹爪状态等。

然后模型会在同一条序列里生成：

子任务描述；

目标物体框；

末端执行器运动轨迹；

动作提示；

最后的动作 token。

也就是说，G0.5 不是先“想完”再交给另一个模块去“动”，而是在同一个模型、同一个词表、同一个 next-token prediction 目标下，把推理和动作统一起来。

这张图非常关键。

图里可以看到，G0.5 会先输出一段类似 Chain-of-Thought 的内容，比如当前子任务是什么、关键物体在哪里。接着，它继续输出动作 token，比如左臂控制、右臂控制、夹爪动作等。

更重要的是，它不是死板地为每个身体部件都生成 token。如果当前右臂不需要动，右臂相关的 token group 就会被直接省略。

这意味着 G0.5 的动作生成是稀疏的、结构化的、按需的。

这解决了早期自回归 VLA 的一个大问题：动作 token 太多，推理太慢。

3. 为什么自回归动作生成以前不流行？

这里有个很现实的问题：机器人动作不是一句话。

如果机械臂每秒要控制很多次，每次动作又包含多个关节，每个关节还要离散成 token，那么动作序列会变得非常长。

早期自回归 VLA 模型，比如 RT-2、OpenVLA，把连续动作离散化后直接交给 VLM 预测。思路很优雅，但缺点也明显：

动作 token 数量爆炸。

这会带来两个问题：

第一，生成慢。机器人控制需要实时性，不能每个动作都等模型慢慢吐 token。

第二，学习难。很多关节在某些时间点根本不需要动，但模型仍然要为它们生成 token，浪费容量。

所以后来大家转向 VLM-as-Encoder 架构：让 VLM 看图和理解语言，让动作专家直接生成连续动作。

G0.5 的创新点在于，它没有放弃自回归路线，而是解决了动作 token 太多的问题。

它靠的是一个很重要的模块：跨机器人动作编码器 ActionCodec。

4. ActionCodec：把不同机器人动作压进同一个词表

G0.5 面对的不是单一机器人，而是多种 embodiment。

有的机器人是单臂，有的是双臂，有的有移动底盘，有的还有 torso。不同机器人的自由度、控制频率、动作空间都不同。

如果每种机器人都单独设计动作头，那模型很难真正做到跨 embodiment 泛化。

G0.5 的做法是：先把不同机器人的动作统一成一个结构化动作空间。

论文里把动作空间拆成五类：

left_control：左臂控制；

left_gripper：左夹爪；

right_control：右臂控制；

right_gripper：右夹爪；

lower_body：下半身或移动底盘相关控制。

整体被统一到一个 27 维动作空间里。

然后，模型不是把整个动作向量拍扁后离散化，而是先按身体部件分组，再用残差向量量化，也就是 RVQ，把连续动作压缩成离散 token。

这张图可以这样理解：

机器人动作先被拆成几个语义对齐的 motion parts，比如左臂、右臂、夹爪、底盘。每个部分分别编码，再进入统一的 action vocabulary。

这样做有三个好处。

第一，跨机器人共享动作词表。不同 embodiment 可以用同一套 token 表示动作。

第二，动作语义更清晰。左臂动作、右臂动作、底盘动作不会全部混在一个扁平向量里。

第三，只预测活跃部件。如果某一步只有左臂在动，那右臂 token 可以不生成。

这就是 G0.5 能继续走自回归路线的关键。它不是暴力生成所有动作，而是把动作变成了更紧凑、更结构化的 token 序列。

5. Native CoT：不是“先规划再行动”，而是“推理本身参与行动”

G0.5 另一个重要设计，是它的 Native Chain-of-Thought。

很多机器人模型也会用中间推理，比如让模型预测子任务、物体框、路径点。但这些通常只是辅助训练信号，或者是外部规划模块的输出。

G0.5 不一样。

它把推理内容直接放进动作生成序列里。

也就是说，模型在输出动作之前，可以先输出：

Subtask：当前子任务，比如“拿起毛巾”；

BBox：关键物体的位置框，比如毛巾、水槽；

Trace：末端执行器的 2D 轨迹；

ActionHint：动作提示，比如“移动时闭合左夹爪”。

然后模型继续在同一条序列里输出动作 token。

这张图展示了 G0.5 的完整序列模板。

前半段是 conditioning segment，包括图像、机器人类型、任务指令和状态；后半段是 generative segment，也就是模型真正要预测的部分。

重点是：CoT 和动作 token 都在 generative segment 里，都用同一个 cross-entropy loss 训练。

这意味着推理不是外挂模块，不是训练时的辅助题，而是动作生成的一部分。

可以把它想象成：

机器人不是先在脑子里想完，再让手去执行；而是边识别、边拆解、边定位、边输出动作。

这也是论文标题背后最有意思的味道：让 VLM 重新成为 actor，而不是 encoder。

6. 视觉记忆：机器人不能只看当前这一帧

机器人做长任务时，只看当前图像往往不够。

比如机械臂可能挡住目标物体；物体刚刚被移动过，当前帧看不到它之前的位置；任务执行失败后，机器人需要知道自己刚才做错了什么。

所以 G0.5 加入了视觉记忆模块。

不过，最简单的办法——把过去几帧图像 token 全部堆到 Transformer 里——成本太高。因为注意力计算会随着 token 数量快速增长。

G0.5 借鉴了已有的 memory-augmented VLA 思路，在视觉编码器里加入 factorized spatial-temporal attention。

简单说，就是：

先在空间维度上理解每一帧；

再在时间维度上融合几秒钟历史；

最后在较高层丢掉历史 token，控制推理延迟。

论文里使用的是 6 帧视觉输入，间隔 1 秒，覆盖约 5 秒历史。训练时还会随机丢掉 30% 历史帧，避免模型过度依赖历史信息。

这个设计对长时程任务尤其重要，因为真实机器人不是在静态图片上做选择题，而是在一个不断变化、经常被遮挡、还可能失败的物理世界里行动。

7. 预训练数据：14 种机器人，100M VQA 样本

G0.5 的预训练数据也很大。

机器人数据部分覆盖了 14 种 embodiment，包括真实机器人和仿真机器人。所有动作都被映射到统一的 27 维动作空间。

从这张图可以看到，预训练数据里包含多个不同形态的机器人平台。论文的目标不是训练一个只会操控某台机械臂的模型，而是训练一个更通用的机器人动作基础模型。

此外，论文还分析了预训练语料中的动作词和物体词分布。

这里有个很有意思的现象：动作和物体都是典型长尾分布。

高频动作集中在 pick、place、move、put 这类通用操作上；高频物体则是常见桌面或家庭物品。

这解释了 G0.5 在 pick-and-place 和开放空间移动放置任务上表现很强，也解释了它在一些柜门、微波炉、半透明抽屉这类 container-interaction 任务上仍然有短板。

除了机器人数据，G0.5 还混合了约 100M 视觉问答数据，包括：

约 50M 通用网页 VQA；

约 50M embodied VQA；

约 5M 内部自动标注 VQA。

训练时，VQA 样本和动作样本按 1:4 混合。所有样本都走同一个 next-token prediction 目标。

这很关键：G0.5 没有把语言理解、CoT、动作生成分成多个任务头，而是把它们都当成 token 生成问题。

8. 实验结果：G0.5 到底强在哪里？

论文做了非常多实验，覆盖真实机器人、仿真 benchmark、零样本部署、语言跟随和长时程任务。

我们挑几个重点来看。

8.1 DROID 零样本：不用微调，直接上真实机器人

DROID 是真实 Franka 机械臂平台。G0.5 在没有针对该机器人设置微调的情况下，直接做 10 个 tabletop manipulation 任务。

任务包括：

把胡萝卜或桃子放进碗里；

把积木放到指定颜色盘子上；

把毛巾或笔放进抽屉；

把碗向左移动；

把毛巾从碗里拿出并放到盘子上；

把积木放进抽屉并关上抽屉。

结果是，G0.5 平均成功率达到 82.5%，高于 π0.5-DROID 的 57.5% 和 MolmoAct2-DROID 的 52.0%。

这个结果说明，G0.5 的预训练确实学到了一些可以迁移到新机器人平台的动作和语言 grounding 能力。

不过这里也暴露了一个问题：G0.5 对低对比度、半透明表面比较敏感。比如抽屉定位任务里，如果没有明显视觉标记，它容易找不准抽屉开口。加上橙色高对比度标记后，表现明显提升。

这说明，G0.5 的动作架构很强，但底层感知仍然可能成为瓶颈。

8.2 仿真 benchmark：LIBERO、RoboTwin、SimplerEnv 都很强

G0.5 在多个标准仿真 benchmark 上也取得了不错的结果。

在 Bridge-SimplerEnv 上，G0.5 平均成功率达到 87.3%，高于表中所有对比方法。

在 RoboTwin 2.0 上，G0.5 平均成功率达到 93.3%，在 clean 和 randomized setting 下都表现稳定。

在 LIBERO 上，G0.5 平均成功率达到 98.9%，并且在 Long suite 上表现尤其强。

这些 benchmark 的意义在于，它们分别测试不同能力：

LIBERO 测试指令跟随、空间推理、物体识别和长时程 manipulation；

RoboTwin 测试双臂协同控制；

SimplerEnv 测试 BridgeData/WidowX 风格的语言条件操作。

G0.5 在这些任务上都表现强，说明它不是只针对某个机器人或某个任务集调出来的模型。

8.3 BEHAVIOR-1K：长时程家庭任务才是真考验

我认为论文里最有说服力的一组实验，是 BEHAVIOR-1K Challenge。

这是一个长时程家庭移动操作 benchmark，包含 50 个完整 household tasks，比如整理、做饭、清洁、搬运等。每个任务平均 6.6 分钟，最长可达 14 分钟。

这和普通 pick-and-place 不是一个难度级别。

机器人不仅要移动，还要双臂操作，还要在房间级环境里持续完成多个子目标。

在这个 benchmark 上，G0.5 使用单个 checkpoint，4 epochs 后 Task Success Score 达到 0.3136。

对比一下：

竞赛第一名 RLC：0.2605，但用了 4 个 checkpoint；

π0.5 训练 4 epochs：0.2626；

G0.5 训练 1 epoch：0.2904；

G0.5 训练 4 epochs：0.3136。

这个结果很关键。

它说明 G0.5 不只是短任务强，在更复杂的长时程移动操作任务里，也能通过单个模型学到比较通用的控制能力。

论文认为，主要原因有三点：

第一，结构化动作分解让 navigation 和 manipulation 在 token 空间里更容易解耦。

第二，预训练数据里的 pick-and-place 分布，让模型在开放空间移动和放置类任务上有明显优势。

第三，视觉记忆预训练让模型更擅长理解场景随时间变化，即使后训练阶段只用单帧输入，也能保留一部分长期任务优势。

8.4 真实机器人微调：R1-Lite 和 R1-Pro 上都能打

论文还在真实 R1-Lite 和 R1-Pro 机器人上做了微调评测。

任务包括：

折毛巾；

折纸箱；

文具盒打包；

盒子搬运和堆叠。

这些任务都不简单。

折毛巾涉及柔性物体操作，折纸箱涉及接触丰富的双臂协作，文具盒打包涉及拉链和小物体，盒子堆叠则要求空间对齐和稳定放置。

在六个真实任务设置中，G0.5 平均成功率达到 76.7%，高于 π0.5 的 53.3% 和 GR00T-N1.7 的 24.4%。

平均 process score 方面，G0.5 为 129.2，π0.5 为 105.2，GR00T-N1.7 为 68.9。

这组结果说明，在相同微调数据和相同评测协议下，G0.5 的优势不是只来自训练预算，而更可能来自预训练 backbone 和架构设计。

9. Pick-and-Place：语言跟随能力到底有没有更强？

机器人任务失败有两种常见原因。

一种是语言没听懂。比如你让它拿黄色工具刀，它去拿了剪刀。

另一种是听懂了，但动作没做好。比如确实去抓目标物体了，但没抓起来，或者没放进容器。

为了区分这两种情况，论文设计了 Pick-and-Place Benchmark。

场景里有 16 个随机物体和容器，机器人要根据语言指令找到目标物体并放进目标容器。

指标分成两个：

Language Following Rate：是否朝正确目标物体行动；

Task Success Rate：是否最终完成抓取和放置。

G0.5 在没有任何 PP-specific post-training 的情况下，zero-shot 就达到：

Language Following：65.6%

Task Success：59.4%

随着后训练数据增加到 50H，G0.5 达到：

Language Following：84.4%

Task Success：75.0%

相比之下，π0.5 在同样 50H 设置下分别为：

Language Following：68.8%

Task Success：65.6%

这个结果支持论文的一个核心观点：

当动作生成仍然由 VLM 自己完成时，VLM 的语言理解能力更容易保留下来，并且能更直接影响动作。

这也是 G0.5 反复强调的“VLM-as-Actor”路线优势。

10. 最有意思的实验：CoT 到底有没有用？

很多人看到机器人 CoT，第一反应可能是：这是不是只是看起来很漂亮？机器人真的会因为“先想一下”而做得更好吗？

论文在第 5.6 节专门做了一个消融实验。

它固定同一个预训练 G0.5 checkpoint，不微调参数，只在推理时切换：

动作头：AR action token vs Flow-Matching head；

CoT：开启 vs 关闭。

任务包括：

PP Bench，单阶段任务；

Air Fryer，五阶段长任务；

Cook Bacon，五阶段长任务。

结果很有意思。

在 PP Bench 这种单阶段任务上，CoT 带来的提升很小。因为任务只有一次 grounding，模型没太多机会从阶段性推理中受益。

但在 Air Fryer 和 Cook Bacon 这种长任务上，CoT 提升明显。

比如 AR action token 模式下：

Air Fryer progress score 从 2.4 提升到 3.8；

Cook Bacon progress score 从 1.5 提升到 3.4。

这说明 CoT 的价值主要出现在多阶段任务里。

每完成一个阶段，机器人都需要重新理解场景、定位目标、执行当前子目标。此时，如果模型能在动作前先生成子任务和物体框，确实能帮助动作更稳。

还有一个很有意思的定性观察：

论文发现，prompt 的措辞会影响机器人行为。

比如：

“push it in hard”

“vertically”

“press / push in / close”

这些轻微的语言变化，会改变机器人在某些 rollout 中的动作和成功率。

这不是论文的严格量化结论，但它暗示了一个很重要的方向：

如果动作生成仍然是自回归语言模型的一部分，那么机器人行为可能更容易被自然语言 prompt 细粒度控制。

这点非常值得后续研究。

11. G0.5 的局限性

当然，这篇论文不是说 G0.5 已经解决了所有机器人问题。

论文自己也承认了几个局限。

第一，低对比度和半透明目标仍然困难。

比如抽屉插入、半透明柜体定位这类任务，G0.5 仍然容易受视觉感知限制影响。这说明自回归架构不能自动解决所有 perception 问题。

第二，视觉记忆仍然很短。

G0.5 的视觉记忆覆盖的是几秒钟历史，而真正的家庭任务可能需要分钟级甚至更长的记忆。比如机器人需要记住哪些东西已经搬过、哪些柜子已经打开、哪个房间还有目标物体。

第三，lower-body 控制没有单独充分评估。

虽然 G0.5 的统一动作空间包含 lower-body，但论文没有专门拆出来评估这部分能力。

第四，prompt 控制还只是初步观察。

论文看到语言措辞会影响动作，但还没有系统研究不同 prompt 如何稳定控制机器人行为。

12. 这篇论文真正重要的地方

G0.5 的意义，不只是 benchmark 分数高。

它更像是在重新提出一个路线问题：

机器人基础模型到底应该是 VLM-as-Encoder，还是 VLM-as-Actor？

过去的主流趋势是 VLM-as-Encoder：VLM 看懂世界，动作专家负责行动。

G0.5 则坚定站在 VLM-as-Actor 一边：VLM 不只是理解器，它应该直接成为决策者和动作生成器。

为了让这条路线可行，G0.5 做了三个关键补丁：

1. 用结构化 ActionCodec 压缩动作 token，解决自回归动作生成效率问题；2. 把 CoT 放进同一条动作生成序列，让推理真正参与行动；3. 加入视觉记忆，让模型利用短时历史应对长任务和遮挡。

所以，G0.5 的核心不是“机器人会说出推理过程”这么简单。

它真正想证明的是：

只要动作表示足够高效，自回归 VLM 可以不只是语言和视觉模型，也可以成为机器人策略模型。

这可能是 VLA 领域一个值得关注的方向转折。

13. 最后

如果把当前机器人 VLA 模型比作一个团队，主流方案像是：

一个聪明的观察员负责看图和理解语言，一个动作工程师负责真正控制机器人。

而 G0.5 想做的是：

让同一个模型既看懂、又思考、又行动。

这种路线未必会立刻替代所有 diffusion / flow-matching 动作专家，但它确实提出了一个非常有吸引力的方向：

未来的机器人，不一定只是“听懂命令后调用控制器”。

它可能会像语言模型生成回答一样，生成自己的行动过程。

只不过这一次，生成的不是一句话，而是一连串能改变物理世界的动作。

来源：G0.5：机器人终于开始“边想边动”了吗？ | 具身研习社

通知

尊敬的用户

user

资讯

G0.5机器人开始实现边想边动

G0.5机器人开始实现边想边动

相关图文

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

Generalist 摒弃 VLA 与世界模型，开辟具身智能原生交互新路径

让机器人先学动作语言：LA4VLA 重新拆解 VLA 预训练

两家企业同日官宣，均自称为大湾区首个估值突破200亿元的具身智能企业

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

SOTA刷新：具身模型ACE-Ego正式开源，解析机器人如何看懂人类动作

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

SK海力士涨超7%，ADR兑换通道已满额；谷歌母公司跌超3%，Q2自由现金流转负；OpenAI被曝上调算力预算支出至7500亿美元

面壁MiniCPM大模型首次搭载于三星Galaxy Z Fold8系列智能手机

奥海科技拟斥资5.7亿元布局AI赛道，达产后年产值相当于去年营收四成，但公司今年上半年净利润预降八成左右

云积压订单超5000亿美元也难救股价？Alphabet财报会实录：巨额AI投入引发分歧

AI需求驱动磷化铟景气度高涨，金属铟迎来量价齐升窗口

字节与千问同日“亮剑”，语音大模型竞争向端侧迁移

小红书开源 BigMac：实现多模态训练显存与速度的统一优化

特斯拉财报会实录：大举押注机器人、自动驾驶与储能，资本开支持持续扩张

蚂蚁集团组建物理AI特工队，蚂蚁灵波具身路线优势与困顿分析

拿下近10亿Pre-A轮融资后，未来如何跑通家庭机器人的商业化场景？

推荐专栏

爱力方

机器人大讲堂

下一篇