具身智能迈入下半场,RoboMemArena全面评测机器人记忆系统
在过去两年中,具身智能基座模型,例如VLA(视觉-语言-动作)模型以及世界模型,均取得了显著的进步。然而,一旦任务的持续时间较长、或者所涉及的场景较为复杂,一个相当现实的问题便会立即浮现:机器人往往并非“不会操作”,而是“无法记住”。举例如下:
柜子之前有没有打开过?
物体被遮挡之前放到了哪里?
某个重复动作已经执行了几次?
在过去两年中,具身智能基座模型,例如视觉-语言-动作(VLA)模型以及世界模型,均取得了显著的进步。然而,一旦任务的持续时间变得较长、或者所涉及的场景较为复杂,一个相当现实的问题便会立即浮现:机器人往往并非"不会操作",而是"无法记住"。举例如下:
因此,单纯依靠当前一帧图像的处理方式,并不能使得这些问题得以解决。也正因如此,我们逐渐意识到:目前已有的众多机器人benchmark虽然在操作层面的评估上已经相当丰富,但对于 memory-dependent long-horizon manipulation 的刻画工作,仍然存在显著的不足之处。
于是,香港科技大学(广州)联合了清华大学、浙江大学、西湖大学、上海交通大学等多所顶尖高校以及科研机构,共同打造了具身智能领域首个聚焦于「机器人记忆能力」的系统性评测基准RoboMemArena,其目的在于填补长期以来机器人在长时程任务以及历史状态记忆评估方面所存在的空白。
该基准突破了传统机器人 Benchmark 仅关注短期感知与即时控制的局限性,通过构建一套涵盖物体转移、目标遮挡、动作计数与顺序执行四大核心记忆场景的综合评测体系,为长时程任务提供了评估框架。具体而言,该基准共包含 26 项长时程任务、151 个细粒度子任务以及 2600 条专家演示轨迹。与此同时,该基准配套了复杂的真机测评环境和 leaderboard,能够支持外部单位手动上传模型以进行真机评测,从而为具身智能系统在长期规划、世界状态理解与动态决策方面,提供了一个更接近真实世界的统一评测标准。
论文标题:RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
论文地址:https://arxiv.org/abs/2605.10921

项目地址:https://robomemarena.github.io/
代码地址:https://github.com/OpenHelix-Team/RoboMemArena
Leaderboard地址:https://robomemarena.github.io/leaderboard.html
数据集地址:https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena
倘若一个基准测试本身未能对记忆需求进行清晰的界定与设计,那么后续的模型性能评估将难以保证其公平性。
有些任务尽管看起来很长,但当前的观察就足以进行决策;
有些 benchmark 有长程执行,
却没有为 memory formation 提供直接监督;
在过去两年中,具身智能基座模型,例如视觉-语言-动作(VLA)模型以及世界模型,均取得了显著的进展与突破。然而,一旦任务所需的持续时间拉长、或所涉及的场景变得较为复杂,一个相当现实的问题便会立刻显现出来:机器人往往并非"缺乏操作能力",而是"无法形成有效记忆"。以下列举动例如下:
RoboMemArena 所要弥补的,正是这一方面的空缺。它并非简单地增设更多任务,而是试图将「机器人在何种情况下必须依赖历史信息」这一问题,进行系统化的梳理与组织。
RoboMemArena 的三个核心特点
It provides the multimodal annotations essential for building robot memory.

这恰恰是我们最为看重的核心所在。众多记忆评测基准仅能告知最终结果是成功抑或失败,然而倘若模型真正需要学会「记住过往经历」,那么它所需要的往往不只是最终的结果标签。
RoboMemArena 提供了更贴近 memory formation 的多模态监督,包括:
将长程轨迹分解为具备可执行性且易于理解的子任务序列。
native keyframe annotations :对那些真正关键的物理状态转折进行显式标记;
作为构建机器人记忆系统不可或缺的要素,它提供了轨迹所对应的视觉观测、动作以及机器人状态等多模态标注数据。
换言之,该基准不仅明确了模型需要完成的任务目标,更进一步指出了在历史过程中哪些关键节点值得被记忆。这一点,构成了RoboMemArena与许多现有基准之间的一项显著区别。
2. 它在 memory benchmark 里足够长程,也足够 diverse
RoboMemArena 一共包含 26 个任务 ,覆盖四类典型的 memory-demand setting:

Transferring (物体转移)
Occlusion( 目标遮挡)
Counting (动作计数)
Sequence (顺序执行)
这些任务并非仅仅是为了凑数量,而是围绕 reactive policy 的典型失败模式来进行设计的。从统计学的角度来看,RoboMemArena 拥有几个非常关键的数字:
平均每个任务 超过 1000 steps
一共收集 2600 条长程视觉轨迹
进一步切分得到 15100 个 keyframe-aligned 短段
全部 151 个子任务里, 68.9% 是 memory-dependent
换言之,这并非一个仅是附带考察记忆能力的benchmark,而是一个将历史依赖关系明确摆到台面上进行考量的benchmark。
3. 该基准并未仅仅停留在仿真环境之中,而是配套构建了复杂的真机测评体系

这也是我们特别想补上的地方。
如果一种记忆方法仅能在仿真环境中发挥作用,那么它距离真正意义上的具身系统仍然存在一定的差距。正因如此,RoboMemArena不仅构建了仿真评测基准,还配套设计了5个面向真实机器人的记忆任务:
Pour Bottle ×2(动作计数任务)
Brush Plates with Swap(状态不可见任务)
Transfer Objects(顺序执行任务)
Shell Game(隐藏状态追踪任务)
IHMBImitate Human to Make Breakfast (IHMB)(长程模仿任务)
在这些任务之中,所需时间最长的真实任务其持续时间超过了3分钟。此外,在最为复杂的IHMB(即模仿人类做早餐)任务方面,唯有我们所开发的PrediMem模型才能够成功完成。
这表明 memory 机制所带来的增益效果,并非仅仅是 simulation 环境中的表面收益,而是在真实执行过程中存在噪声干扰的情况下,依然能够展现出切实的价值。
为什么我们说它 easy to use?
我们期望RoboMemArena并非一个仅服务于论文撰写的评测基准,而是能够真正被学术界同仁用于开展模型训练、进行方法复现以及实施性能比较。因此,在开放资源方面,我们致力于提供完整的访问接口与详尽的使用指南:
将26个任务的高质量训练数据进行开源,这些数据附带了子任务、关键帧以及HDF5轨迹结构等丰富的标注信息。
配备了26项BDDL格式的任务定义、兼容LIBERO的评估环境,以及一套支持mujoco、robosuite及OpenGL/EGL的评测执行路径。
开放了PrediMem相关的训练与评测实现入口,以及系统性地完成了π0.5、MemoryVLA、MemER、HiF-VLA等代表性baseline的评测工作。
换句话说,如果你想直接在统一的benchmark之上开展robot memory方面的研究,那么RoboMemArena已经尽可能地将最耗时的那部分前置工作替大家先行完成了。
PrediMem 到底强在哪里?
如果说,RoboMemArena 回答的核心问题是:memory benchmark 应当如何构建与实现。那么,PrediMem 所着重回答的便是:在这样一项基准之上,一个真正具备memory-aware能力的baseline模型,应当具备怎样的特征与形态。

PrediMem 是一个 dual-system VLA:
高层 VLM 负责规划和 memory 管理
低层 VLA 负责执行动作 chunk
其关键之处并不在于盲目地扩大模型规模,而在于让高层规划器(planner)能够进行显式维护:
近年来,具身智能领域的基座模型,例如视觉-语言-动作(VLA)模型以及世界模型,均取得了显著的进展与突破。然而,一旦任务所需持续时间拉长、或涉及场景变得复杂,一个现实的问题便会立刻显现:机器人往往并非缺乏操作能力,而是难以形成有效记忆。例如:
keyframe buffer
并且借助 predictive coding head,使得高层表征对物理状态转折变得更加敏感。这种设计表面看似简单,然而在 long-horizon 以及 partially observable 的场景当中,却至关重要。
从实验层面来看,它在记忆能力方面确实拉开了差距
在仿真实验中,PrediMem的整体表现均优于所有baseline:

PrediMem :38.5% TSR / 55.2% CSR
MemER :27.3% TSR / 49.1% CSR
π0.5 :21.5% TSR / 38.7% CSR
当我们进一步审视这四类具体任务时,PrediMem在Transferring、Occlusion、Counting以及Sequence任务上,均取得了最优的平均性能表现。其中,在最为依赖历史状态保持能力的Sequence任务上,其任务成功率(TSR)达到了72.5%,累计成功率(CSR)为89.5%。而在Occlusion与Counting这两类记忆需求最为严苛的任务设置中,该模型同样展现出明显优势,与baseline模型之间形成了显著的性能差异。
而在真实机器人任务的执行方面,实验结果同样展现出了清晰的指向。
PrediMem achieved a 52% average success.
MemER :40%
π0.5 :20%
此外,在持续时间最长、场景最为复杂且对历史信息依赖程度最高的 IHMB 任务上,唯有 PrediMem 取得了成功。消融实验的结果也进一步证实,无论是去除 predictive coding head,还是移除 keyframe bank,模型的整体性能均会出现显著下降。
这表明,PrediMem所展现出的优势并非源于模型规模本身的扩大,而是切实得益于其对历史信息所进行的组织与利用方式的改进。这也进一步说明,记忆机制并非一个可有可无的附属模块,而是在长时程的机器人任务执行过程中,决定其能否将任务顺利贯穿并完成的核心能力。
我们真正希望 RoboMemArena 带来什么?
我们期望它不仅仅成为另一个基准测试的名称,更致力于将这一长期受到低估的问题真正地凸显出来:在长时程机器人任务执行方面,记忆能力并非可有可无的选项,而是一项基础性的能力要求。
如果一个系统不能记住:
之前发生了什么
哪些状态变化值得保留
人类刚刚示范过怎样的顺序
那么它在真实复杂任务中便难以真正保持稳定。
RoboMemArena所期望达成的,便是将这项工作以更完整、更具可训练性、更便于横向比较、且更能落地于真实机器人的视角进行系统化的组织。
来源:具身智能迈入下半场,RoboMemArena全面评测机器人记忆系统 | 具身研习社