机器人在11个数据集上取得SOTA，同时具备视觉和运动能力

2026年06月05日 20:05

本文共计2624个字，预计阅读时长9分钟。

来源/具身研习社责编/ShuxiangMama 书香妈妈

不妨设想这样一个场景：你先给机器人看了一张照片，随后再对它说一句“把微波炉打开”。

结果表明，它不仅识别出了需要接触的具体位置，还进一步完成了完整三维运动轨迹的规划，关键在于其确实把门成功拉开了，而且整体成功率达到了90%。

这件事由一个名为AFUN的新模型成功做到了，并且还在11个数据集之上取得了SOTA。

这种判断物体能做什么以及该如何动作的能力，在学术上被称为可供性感知。

这种能力，机器人已经学了很多年，却始终还差着一口气，不是看不明白，就是动不起来。

总之，这两件事过去几乎从未被同一个模型同时解决，直到AFUN这项工作出现，才把这个缺口补了上来。

机器人为什么能“看”不能“动”

过去从事可供性研究的工作，大多都集中在解决同一个问题，也就是机器人“应当接触哪里”。

在这种模式之下，只要给出一个分割掩码，或者标出几个关键点，相关研究往往就算完成了。

至于在机器人完成接触之后，物体究竟应当朝哪个方向移动、施加多大的力，以及沿着什么方向来运动，几乎还没有方法能够对此作出回答。

但在真实的任务场景中，机器人如果想完成一项操作任务，仅仅知道“抓把手”显然还不够，它还必须明确在抓住之后应当朝哪个方向拉动、旋转多少角度，以及移动多长距离。

如果缺少这些关键信息，那么机械臂往往只能停留在原地。

于是，另一部分研究者开始转向对运动预测问题的研究，但很快又遇到了新的瓶颈。

大多数方法只能在2D图像平面上给出轨迹，而机器人在真正执行时所需要的是三维信息，因此平面上的箭头无法告诉它究竟应当向前推动，还是向上抬起。

还有一些方法则直接要求人先指出目标所在的位置，再去预测应当如何运动，这实际上绕开了定位问题，也因此使机器人无法真正实现自主部署。

两条路都受限于数据。

现有的可供性数据集整体规模普遍偏小、所覆盖的场景也较为有限，因此模型能够见到的物体种类以及交互类型都相对较窄。

结果也就表现为，在实验室环境中完成调试的模型虽然还能取得不错的效果，但一旦更换为未见过的物体，或者切换到新的场景之中，其性能往往就会出现大幅下滑。

这也正是为什么现有方法往往很难真正走出实验室，并进一步实现实际落地应用的一个重要原因。

还有一个更为根本的问题，始终没有被正面解决：同一个物体在不同任务情境之下，所需要交互的区域往往会完全不同。

如果让机器人使用锤子，那么它应当抓住锤柄；如果让它借助锤子压住纸张，那么它应当抓住锤头。

这一问题已经不再停留于识别层面，而是要求模型去理解任务意图，但静态分割模型在其设计上本就不具备作出这种区分的能力。

AFUN怎么做到的

AFUN的核心思路，在于把三个已经完成训练的大模型整合在一起，并让它们分别承担各自的任务。

Qwen3-VL负责对语言指令进行理解，SAM3负责对图像进行分割，Sonata负责处理由深度图转换而成的三维点云。

三个模型在训练过程中始终保持冻结状态，AFUN仅在其间额外引入了3200万个参数，并将它们进一步串联起来。

串联的方式叫MetaQuery。

简单来说，就是在输入的文字指令当中插入一组可学习的特殊token，使其随着指令一同经过Qwen3-VL的transformer，并把提取出的隐层状态分别送入分割模型以及运动预测模块。

分割任务以及运动任务则共享同一次VLM推理，并在一次前向传播中同时输出两个结果。

对于运动的表示方式，AFUN同样作出了专门的设计选择。

它借助贝塞尔样条曲线来描述物体在接触之后的运动轨迹，并把起点固定在分割掩码对应的深度质心上，因此模型只需要对后续的控制点进行预测。

在对运动进行表示时，AFUN借助贝塞尔样条曲线来刻画物体接触之后的运动轨迹，并将起点固定为分割掩码所对应的深度质心，因此模型只需要对后续控制点进行预测。

训练分三个阶段进行。

第一阶段先在Visual Genome数据集之上对MetaQuery与SAM3的特征空间进行对齐，为后续训练提供一个稳定的初始化；第二阶段在四个可供性数据集之上专门开展分割训练；第三阶段则把运动预测进一步加入进来并进行联合训练。

这样的安排，是为了避免随机初始化的token在训练早期对分割质量造成干扰，从而使两个任务的学习过程都能够保持稳定。

数据方面，AFUN从10个公开数据源当中聚合了32万条原始视频，其所覆盖的来源横跨机器人遥操作、人类第一视角、仿真环境以及真实场景扫描四类来源。

原始片段在完成切分之后形成了124万个动作区间，随后再借助自动化流水线标注以及人工质检，最终保留下来的训练样本约为6万条。

这套流水线当中还有一处容易被忽视的设计修正。

过去，许多数据集都会把机械臂或手部的运动轨迹直接作为监督信号，但这类轨迹当中往往混入了大量发生在接触之前、与实际交互无关的运动成分。

AFUN将原有方式改为直接追踪物体本身，因为在接触发生之后，物体会朝何处运动，才是真正具有意义的操作信息。

11个测试集SOTA

AFUN在11个测试集之上取得了SOTA，覆盖了分割、接触点预测以及3D运动预测这三个方向。

在分割任务方面，研究团队借助8个测试集开展了验证，覆盖了4个不同的基准。AFUN在全部测试集上均取得了SOTA，平均gIoU以及cIoU相较于最强基线分别提升了23.9和26.3个点。

在接触点任务中，AFUN把预测掩码中的最远内点选作接触点，因此其在不同测试集上的命中率相较于最佳基线提升了12.7%到61.3%。

在3D运动预测方面，即便所设对比条件对AFUN并不占优，作为对比模型的General Flow在全部三个测试集上的ADE以及FDE表现仍然不及AFUN。

最后是真实机器人部署。

AFUN在Franka机械臂之上对四项任务开展了测试，包括拿起螺丝刀、取下锅盖、拉开抽屉以及打开微波炉；在未针对这台机械臂进行任何微调的情况下，其平均成功率达到了90%。

作者简介

本文的两位共同一作分别是Zhaoning Wang和Yi Zhong。

Zhaoning Wang目前为密歇根大学博士生，师从Jun Gao，研究方向主要覆盖3D神经表示、生成模型以及具身AI。

此前他曾在Hillbot以及UC圣地亚哥苏昊实验室从事研究工作，并以一作或共同一作身份在CVPR、ECCV、NeurIPS等顶会发表论文。

Yi Zhong同样就读于密歇根大学。

其余作者还包括Jiawei Fu以及UC圣地亚哥机器人研究所所长Henrik I. C。

来源：11个数据集全拿SOTA！机器人终于既会“看”又会“动”了 | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: AFUN模型可供性感知三维运动规划机器人学习大模型

通知

尊敬的用户

user

资讯

机器人在11个数据集上取得SOTA，同时具备视觉和运动能力

机器人在11个数据集上取得SOTA，同时具备视觉和运动能力

相关图文

孙天祥正式加盟百度，出任基础模型研发部负责人并加入模型委员会

三年蛰伏匿名杀入全球前三，美团龙猫2.0能否改写万亿参数国产算力新叙事？

DeepSeek V4下月上线将引入峰谷定价机制

美团开源万亿参数模型LongCat-2.0，算力界的巨无霸来了

马斯克宣布每月推出全新大模型 Grok 4.5 内测性能比肩 Claude Opus

智达明远AI刘艳兵受邀出席2026火山引擎FORCE原动力开发者大会，借力顶级AI生态盛宴共探产业落地新范式

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

SK海力士涨超7%，ADR兑换通道已满额；谷歌母公司跌超3%，Q2自由现金流转负；OpenAI被曝上调算力预算支出至7500亿美元

面壁MiniCPM大模型首次搭载于三星Galaxy Z Fold8系列智能手机

奥海科技拟斥资5.7亿元布局AI赛道，达产后年产值相当于去年营收四成，但公司今年上半年净利润预降八成左右

云积压订单超5000亿美元也难救股价？Alphabet财报会实录：巨额AI投入引发分歧

AI需求驱动磷化铟景气度高涨，金属铟迎来量价齐升窗口

字节与千问同日“亮剑”，语音大模型竞争向端侧迁移

小红书开源 BigMac：实现多模态训练显存与速度的统一优化

特斯拉财报会实录：大举押注机器人、自动驾驶与储能，资本开支持持续扩张

蚂蚁集团组建物理AI特工队，蚂蚁灵波具身路线优势与困顿分析

拿下近10亿Pre-A轮融资后，未来如何跑通家庭机器人的商业化场景？

推荐专栏

爱力方

机器人大讲堂

下一篇