机器人在11个数据集上取得SOTA,同时具备视觉和运动能力
不妨设想这样一个场景:你先给机器人看了一张照片,随后再对它说一句“把微波炉打开”。
结果表明,它不仅识别出了需要接触的具体位置,还进一步完成了完整三维运动轨迹的规划,关键在于其确实把门成功拉开了,而且整体成功率达到了90%。
这件事由一个名为AFUN的新模型成功做到了,并且还在11个数据集之上取得了SOTA。
这种判断物体能做什么以及该如何动作的能力,在学术上被称为可供性感知。
这种能力,机器人已经学了很多年,却始终还差着一口气,不是看不明白,就是动不起来。

总之,这两件事过去几乎从未被同一个模型同时解决,直到AFUN这项工作出现,才把这个缺口补了上来。
机器人为什么能“看”不能“动”
过去从事可供性研究的工作,大多都集中在解决同一个问题,也就是机器人“应当接触哪里”。
在这种模式之下,只要给出一个分割掩码,或者标出几个关键点,相关研究往往就算完成了。
至于在机器人完成接触之后,物体究竟应当朝哪个方向移动、施加多大的力,以及沿着什么方向来运动,几乎还没有方法能够对此作出回答。
但在真实的任务场景中,机器人如果想完成一项操作任务,仅仅知道“抓把手”显然还不够,它还必须明确在抓住之后应当朝哪个方向拉动、旋转多少角度,以及移动多长距离。
如果缺少这些关键信息,那么机械臂往往只能停留在原地。
于是,另一部分研究者开始转向对运动预测问题的研究,但很快又遇到了新的瓶颈。
大多数方法只能在2D图像平面上给出轨迹,而机器人在真正执行时所需要的是三维信息,因此平面上的箭头无法告诉它究竟应当向前推动,还是向上抬起。
还有一些方法则直接要求人先指出目标所在的位置,再去预测应当如何运动,这实际上绕开了定位问题,也因此使机器人无法真正实现自主部署。
两条路都受限于数据。
现有的可供性数据集整体规模普遍偏小、所覆盖的场景也较为有限,因此模型能够见到的物体种类以及交互类型都相对较窄。

结果也就表现为,在实验室环境中完成调试的模型虽然还能取得不错的效果,但一旦更换为未见过的物体,或者切换到新的场景之中,其性能往往就会出现大幅下滑。
这也正是为什么现有方法往往很难真正走出实验室,并进一步实现实际落地应用的一个重要原因。
还有一个更为根本的问题,始终没有被正面解决:同一个物体在不同任务情境之下,所需要交互的区域往往会完全不同。
如果让机器人使用锤子,那么它应当抓住锤柄;如果让它借助锤子压住纸张,那么它应当抓住锤头。
这一问题已经不再停留于识别层面,而是要求模型去理解任务意图,但静态分割模型在其设计上本就不具备作出这种区分的能力。
AFUN怎么做到的
AFUN的核心思路,在于把三个已经完成训练的大模型整合在一起,并让它们分别承担各自的任务。
Qwen3-VL负责对语言指令进行理解,SAM3负责对图像进行分割,Sonata负责处理由深度图转换而成的三维点云。
三个模型在训练过程中始终保持冻结状态,AFUN仅在其间额外引入了3200万个参数,并将它们进一步串联起来。
串联的方式叫MetaQuery。

简单来说,就是在输入的文字指令当中插入一组可学习的特殊token,使其随着指令一同经过Qwen3-VL的transformer,并把提取出的隐层状态分别送入分割模型以及运动预测模块。
分割任务以及运动任务则共享同一次VLM推理,并在一次前向传播中同时输出两个结果。
对于运动的表示方式,AFUN同样作出了专门的设计选择。
它借助贝塞尔样条曲线来描述物体在接触之后的运动轨迹,并把起点固定在分割掩码对应的深度质心上,因此模型只需要对后续的控制点进行预测。
在对运动进行表示时,AFUN借助贝塞尔样条曲线来刻画物体接触之后的运动轨迹,并将起点固定为分割掩码所对应的深度质心,因此模型只需要对后续控制点进行预测。
训练分三个阶段进行。
第一阶段先在Visual Genome数据集之上对MetaQuery与SAM3的特征空间进行对齐,为后续训练提供一个稳定的初始化;第二阶段在四个可供性数据集之上专门开展分割训练;第三阶段则把运动预测进一步加入进来并进行联合训练。
这样的安排,是为了避免随机初始化的token在训练早期对分割质量造成干扰,从而使两个任务的学习过程都能够保持稳定。
数据方面,AFUN从10个公开数据源当中聚合了32万条原始视频,其所覆盖的来源横跨机器人遥操作、人类第一视角、仿真环境以及真实场景扫描四类来源。
原始片段在完成切分之后形成了124万个动作区间,随后再借助自动化流水线标注以及人工质检,最终保留下来的训练样本约为6万条。
这套流水线当中还有一处容易被忽视的设计修正。

过去,许多数据集都会把机械臂或手部的运动轨迹直接作为监督信号,但这类轨迹当中往往混入了大量发生在接触之前、与实际交互无关的运动成分。
AFUN将原有方式改为直接追踪物体本身,因为在接触发生之后,物体会朝何处运动,才是真正具有意义的操作信息。
11个测试集SOTA

AFUN在11个测试集之上取得了SOTA,覆盖了分割、接触点预测以及3D运动预测这三个方向。
在分割任务方面,研究团队借助8个测试集开展了验证,覆盖了4个不同的基准。AFUN在全部测试集上均取得了SOTA,平均gIoU以及cIoU相较于最强基线分别提升了23.9和26.3个点。
在接触点任务中,AFUN把预测掩码中的最远内点选作接触点,因此其在不同测试集上的命中率相较于最佳基线提升了12.7%到61.3%。
在3D运动预测方面,即便所设对比条件对AFUN并不占优,作为对比模型的General Flow在全部三个测试集上的ADE以及FDE表现仍然不及AFUN。
最后是真实机器人部署。
AFUN在Franka机械臂之上对四项任务开展了测试,包括拿起螺丝刀、取下锅盖、拉开抽屉以及打开微波炉;在未针对这台机械臂进行任何微调的情况下,其平均成功率达到了90%。
作者简介
本文的两位共同一作分别是Zhaoning Wang和Yi Zhong。
Zhaoning Wang目前为密歇根大学博士生,师从Jun Gao,研究方向主要覆盖3D神经表示、生成模型以及具身AI。
此前他曾在Hillbot以及UC圣地亚哥苏昊实验室从事研究工作,并以一作或共同一作身份在CVPR、ECCV、NeurIPS等顶会发表论文。
Yi Zhong同样就读于密歇根大学。
其余作者还包括Jiawei Fu以及UC圣地亚哥机器人研究所所长Henrik I. C。

来源:11个数据集全拿SOTA!机器人终于既会“看”又会“动”了 | 具身研习社