机器人在11个数据集上取得SOTA,同时具备视觉和运动能力

2026年06月05日 20:05
本文共计2624个字,预计阅读时长9分钟。
来源/具身研习社 责编/爱力方

不妨设想这样一个场景:你先给机器人看了一张照片,随后再对它说一句“把微波炉打开”。

结果表明,它不仅识别出了需要接触的具体位置,还进一步完成了完整三维运动轨迹的规划,关键在于其确实把门成功拉开了,而且整体成功率达到了90%。

这件事由一个名为AFUN的新模型成功做到了,并且还在11个数据集之上取得了SOTA。

这种判断物体能做什么以及该如何动作的能力,在学术上被称为可供性感知。

这种能力,机器人已经学了很多年,却始终还差着一口气,不是看不明白,就是动不起来。

82f488f897f2f9ef13819a138a9ff399.png

总之,这两件事过去几乎从未被同一个模型同时解决,直到AFUN这项工作出现,才把这个缺口补了上来。

机器人为什么能“看”不能“动”

过去从事可供性研究的工作,大多都集中在解决同一个问题,也就是机器人“应当接触哪里”。

在这种模式之下,只要给出一个分割掩码,或者标出几个关键点,相关研究往往就算完成了。

至于在机器人完成接触之后,物体究竟应当朝哪个方向移动、施加多大的力,以及沿着什么方向来运动,几乎还没有方法能够对此作出回答。

但在真实的任务场景中,机器人如果想完成一项操作任务,仅仅知道“抓把手”显然还不够,它还必须明确在抓住之后应当朝哪个方向拉动、旋转多少角度,以及移动多长距离。

如果缺少这些关键信息,那么机械臂往往只能停留在原地。

于是,另一部分研究者开始转向对运动预测问题的研究,但很快又遇到了新的瓶颈。

大多数方法只能在2D图像平面上给出轨迹,而机器人在真正执行时所需要的是三维信息,因此平面上的箭头无法告诉它究竟应当向前推动,还是向上抬起。

还有一些方法则直接要求人先指出目标所在的位置,再去预测应当如何运动,这实际上绕开了定位问题,也因此使机器人无法真正实现自主部署。

两条路都受限于数据。

现有的可供性数据集整体规模普遍偏小、所覆盖的场景也较为有限,因此模型能够见到的物体种类以及交互类型都相对较窄。

3e45f5bc3c572d1e4199a68bd0cf64eb.png

结果也就表现为,在实验室环境中完成调试的模型虽然还能取得不错的效果,但一旦更换为未见过的物体,或者切换到新的场景之中,其性能往往就会出现大幅下滑。

这也正是为什么现有方法往往很难真正走出实验室,并进一步实现实际落地应用的一个重要原因。

还有一个更为根本的问题,始终没有被正面解决:同一个物体在不同任务情境之下,所需要交互的区域往往会完全不同。

如果让机器人使用锤子,那么它应当抓住锤柄;如果让它借助锤子压住纸张,那么它应当抓住锤头。

这一问题已经不再停留于识别层面,而是要求模型去理解任务意图,但静态分割模型在其设计上本就不具备作出这种区分的能力。

AFUN怎么做到的

AFUN的核心思路,在于把三个已经完成训练的大模型整合在一起,并让它们分别承担各自的任务。

Qwen3-VL负责对语言指令进行理解,SAM3负责对图像进行分割,Sonata负责处理由深度图转换而成的三维点云。

三个模型在训练过程中始终保持冻结状态,AFUN仅在其间额外引入了3200万个参数,并将它们进一步串联起来。

串联的方式叫MetaQuery。

e28a7559758830e4e852e205c6e80943.png

简单来说,就是在输入的文字指令当中插入一组可学习的特殊token,使其随着指令一同经过Qwen3-VL的transformer,并把提取出的隐层状态分别送入分割模型以及运动预测模块。

分割任务以及运动任务则共享同一次VLM推理,并在一次前向传播中同时输出两个结果。

对于运动的表示方式,AFUN同样作出了专门的设计选择。

它借助贝塞尔样条曲线来描述物体在接触之后的运动轨迹,并把起点固定在分割掩码对应的深度质心上,因此模型只需要对后续的控制点进行预测。

在对运动进行表示时,AFUN借助贝塞尔样条曲线来刻画物体接触之后的运动轨迹,并将起点固定为分割掩码所对应的深度质心,因此模型只需要对后续控制点进行预测。

训练分三个阶段进行。

第一阶段先在Visual Genome数据集之上对MetaQuery与SAM3的特征空间进行对齐,为后续训练提供一个稳定的初始化;第二阶段在四个可供性数据集之上专门开展分割训练;第三阶段则把运动预测进一步加入进来并进行联合训练。

这样的安排,是为了避免随机初始化的token在训练早期对分割质量造成干扰,从而使两个任务的学习过程都能够保持稳定。

数据方面,AFUN从10个公开数据源当中聚合了32万条原始视频,其所覆盖的来源横跨机器人遥操作、人类第一视角、仿真环境以及真实场景扫描四类来源。

原始片段在完成切分之后形成了124万个动作区间,随后再借助自动化流水线标注以及人工质检,最终保留下来的训练样本约为6万条。

这套流水线当中还有一处容易被忽视的设计修正。

c6389ed3e9d0f67f3b84ca2fa9fa649f.png

过去,许多数据集都会把机械臂或手部的运动轨迹直接作为监督信号,但这类轨迹当中往往混入了大量发生在接触之前、与实际交互无关的运动成分。

AFUN将原有方式改为直接追踪物体本身,因为在接触发生之后,物体会朝何处运动,才是真正具有意义的操作信息。

11个测试集SOTA

0bd66e3f5314d091c8f9da11a188d03a.png

AFUN在11个测试集之上取得了SOTA,覆盖了分割、接触点预测以及3D运动预测这三个方向。

在分割任务方面,研究团队借助8个测试集开展了验证,覆盖了4个不同的基准。AFUN在全部测试集上均取得了SOTA,平均gIoU以及cIoU相较于最强基线分别提升了23.9和26.3个点。

在接触点任务中,AFUN把预测掩码中的最远内点选作接触点,因此其在不同测试集上的命中率相较于最佳基线提升了12.7%到61.3%。

在3D运动预测方面,即便所设对比条件对AFUN并不占优,作为对比模型的General Flow在全部三个测试集上的ADE以及FDE表现仍然不及AFUN。

最后是真实机器人部署。

AFUN在Franka机械臂之上对四项任务开展了测试,包括拿起螺丝刀、取下锅盖、拉开抽屉以及打开微波炉;在未针对这台机械臂进行任何微调的情况下,其平均成功率达到了90%。

作者简介

本文的两位共同一作分别是Zhaoning Wang和Yi Zhong。

Zhaoning Wang目前为密歇根大学博士生,师从Jun Gao,研究方向主要覆盖3D神经表示、生成模型以及具身AI。

此前他曾在Hillbot以及UC圣地亚哥苏昊实验室从事研究工作,并以一作或共同一作身份在CVPR、ECCV、NeurIPS等顶会发表论文。

Yi Zhong同样就读于密歇根大学。

其余作者还包括Jiawei Fu以及UC圣地亚哥机器人研究所所长Henrik I. C。

2d71e3f719617331d3fdaa90364d3501.png

来源:11个数据集全拿SOTA!机器人终于既会“看”又会“动”了 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/