RoboScience机器科学“具身大脑”连续两年进入ICRA最佳论文视野

2026年06月05日 20:04

本文共计6215个字，预计阅读时长21分钟。

来源/具身研习社责编/爱力方

编辑：吕鑫燚

出品：具身研习社

这标志着 RoboScience 已经连续两年进入 ICRA 最佳论文的视野之中。

如果说在机器人学界每年都会出现这样一个时刻，使全球高校实验室、产业公司以及顶尖研究者同时把目光集中到同一处，那么ICRA无疑就是其中最重要的舞台之一。

ICRA，全称 IEEE International Conference on Robotics and Automation，作为 IEEE 机器人与自动化学会旗下的旗舰会议，同时也是全球机器人与自动化领域最具影响力的顶级学术会议之一。

在这里，一篇论文所面对的已不只是常规的同行评审，而是来自全球机器人学界最前沿力量的直接竞争。对于机器人研究者而言，能够被ICRA接收本身就意味着获得了一次重要认可；而能够进入最佳论文的视野，则意味着这项工作已被纳入全球机器人技术路线的重要风向标之中。

正是在这样的舞台之上，ICRA 2026年度奖项正式揭晓。在“机器人操作与运动”这一方向的 Best Paper Finalist 名单当中，与伯克利大学、斯坦福大学、麻省理工大学以及清华大学等顶级机构并列出现的，是由 RoboScience 机器科学首席科学家邵林所带领的 NUS 团队，其论文题为《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》。

这意味着邵林团队已连续第二年进入 ICRA 最佳论文的视野之中。

一年前在亚特兰大，他们的另一篇论文《D（R，O） Grasp》从全球数千篇投稿中脱颖而出，获得了 ICRA 2025 “机器人操作与运动最佳论文奖”。根据 ICRA 2025 官方获奖名单，这篇论文之所以获奖，在于其对“跨不同机器人手与物体的可泛化灵巧抓取表征”作出了贡献。

换句话说，RoboScience 机器科学之所以能连续两年进入 ICRA 的视野，正是因为它持续对机器人操作中最困难的问题给出了自己的答案。

全球 4000+ 篇投稿、获奖率不足 1%，而更难得的是，作为亚洲唯一连续两年入选的团队，这件事在机器人学界本身就已足够说明其分量。而在最佳论文之外，邵林带领的团队仅在 ICRA 2026 一届就有 10 篇研究成果成功入选，覆盖灵巧抓取、社交导航、低成本力感知以及混合任务规划等核心方向，由此系统性地推进具身智能的技术边界。

这意味着，一家仅成立一年半的中国公司，正把自身的技术路线置于全球机器人学界竞争最激烈、标准也最严肃的竞技场中接受检验，并且成功说服了同侪。

回到论文内容本身便会发现，这两篇论文所要解决的，其实是同一个问题：让机器人从“一物一策”的模式中走出来。

D（R，O） Grasp 成功使一个 AI 大脑具备了驱动 3 指、4 指以及5 指等不同形态灵巧手的能力，并且可以在跨本体条件下完成对上百种物体的抓取，成功率达到 87% 以上，同时生成时间控制在 1 秒以内。Bi-Adapt 则使机器人只需观察少量示例，就能够把已经学会的双臂协作动作迁移到此前从未见过的物体类别之上，甚至得以实现对类别之外情形的零样本泛化。

一个着力解决“换手”，另一个着力解决“换物”。这两条看似不同的技术路径，其背后所对应的其实是同一个判断：具身智能下一阶段的关键胜负，取决于“泛化”能力。

而这也正是成立仅一年半的中国公司 RoboScience 机器科学对外所讲述的故事，以及其押下的核心赌注：“打破泛化瓶颈”。两位创始人，首席科学家邵林以及CEO 田野，分别对应着这一赌注中最关键的两端：前沿研究的方法论，以及大规模工程的执行力。

一言以蔽之，尽管仅成立一年半，RoboScience 机器科学却已经在最强调路径长期主义的机器人学界，持续把最难攻克的泛化问题推到前台，并连续两年获得 ICRA 的认可。至少在这一层面上，RoboScience 机器科学已不再只是一个简单的初创公司名称，而是正在走向具身智能世界舞台中央的中国样本。

在过去两年的具身智能浪潮之中，几乎所有头部玩家都在朝向同一套技术范式加速推进，也就是 VLA（Vision-Language-Action），即借助视觉与语言直接驱动机器人输出动作。RoboScience 机器科学则属于少数公开走出不同路线的公司，其核心技术架构被命名为 VLOA（Vision-Language-Object-Action）。其中额外增加的那个 O，所对应的正是 Object，也就是物体。

这个看似只是多出一个字母的差别，其背后所对应的却是一种完全不同的判断：如果机器人想要真正变得“通用”，那么首先需要学会理解物体在物理世界之中会如何演化，进而再决定应当如何行动。

VLA 这一路线的最大问题，恰恰在于它跳过了“对物理世界本身的理解”，也就是把感知以及语言直接映射到动作。在静态且固定的场景之中，它可以正常工作；但只要更换一个新物体、一项新任务，或者一台不同构型的机器人本体，就往往需要重新采集数据并重新训练模型。归根结底，VLA 所给出的仍是一组组“实例-动作”的硬绑定关系，因此很难真正突破“泛化”的边界。

VLOA 所要解决的，正是这一问题，也就是让同一个大脑能够指挥任意机器人、操作任意物体，并完成任意任务。

具体到其架构，它由“具身世界模型”以及“通用操作模型”两层构成，并借助一个名为Object Trajectory、即物体轨迹的接口，把两者打通：

上层的具身世界模型负责完成“理解世界”这一环节。它会让机器人在真正动手之前，先在内部对未来过程进行一次预演，也就是判断哪个物体会朝哪里移动、姿态会如何变化，以及会与谁发生接触。其输出是一种被称为“3D 点云轨迹”的中间表示，这种表示既能够直观呈现物体的运动路径，又天然满足物理几何约束，因此不会出现 2D 视频生成中常见的重力错乱与物体穿模问题。

图注：具身世界模型输出3D 点云轨迹

下层的通用操作模型负责完成“改变世界”这一环节。它会把这条轨迹进一步转化为机器人的关节角度、接触点以及力控信号，从而在物理世界之中实现精准复现。它所对应的也不再是“一个任务一个模型”的碎片式堆砌，而是把全部技能纳入联合训练过程，并共享同一套底层表征。

图注：通用操作模型会根据输入的3D 点云轨迹来驱动灵巧手

位于中间的 Object Trajectory，正是 VLOA 最精妙的一笔：它把“认知”与“执行”彻底解耦，上层无需关心所使用的硬件，下层也无需关心具体要完成的任务，而两者之间则借助“物体的 3D 点云轨迹”这一既人类可读、又机器可执行的通用语言来完成交接。

而这种解耦所兑现的，正是 VLOA 真正想要完成的三件事：

跨物体：从光滑的洗发水瓶到透明的棉签盒，从硬质零件到软质布料，同一套模型都能够自动完成适配，而不必针对每一种新物体分别进行单独训练；

跨任务：开信封需要毫牛级切入力，立硬币依赖动态平衡，抓薯片要避免压碎，用针管注射则要求精准控速，而这些过去需要分别开发算法的精细任务，如今已由一个模型统一完成；

跨本体：模型与硬件实现了完全解耦，因此只需更换一只灵巧手，便可直接使用。比如，同一套策略可以无缝迁移到 X-hand（12 个自由度齿轮准直驱）以及 LEAP Hand（16 个自由度直驱）等形态完全不同的灵巧手。

最具说服力的案例出现在去年的 5 月。基于 VLOA，RoboScience 机器科学成功完成了全球范围内复杂度最高、精度要求最高、步骤数量最多的具身操作任务，也就是家具拼装。这项工作几乎覆盖了机器人操作中的全部核心难点，包括手内操作、双臂协同、毫米级精度、长程任务规划以及力反馈调控。模型在读取说明书之后便可以启动拼装流程，而如果中途受到人为拆解等干扰，系统也能够自动恢复状态并接续完成任务。

更关键的是，这种“通用性”的上限并非固定，而是可以持续突破。RoboScience 机器科学已为具身世界模型积累超过 100 万小时、以物体为中心的多模态视频数据，并以每周数十万小时的速度增长，目标是在 2026 年底构建千万小时级数据集；在通用操作模型方面，依托自研多模态物理仿真平台 RoboMirage，已积累 10B（100 亿次）高质量操作轨迹，目标是在 2026 年突破 1T（1 万亿次）。两个模型都已在工程层面验证了 Scaling Law：数据规模越大，泛化能力越强，并呈现可预测的幂律提升。

这意味着，RoboScience 机器科学所押注的这一路线，并不只是技术架构层面的巧思，而是一套能够持续滚雪球、并且规模越大优势越明显的工程系统。

总之，VLOA 相较于 VLA 更为激进、也更具长期指向性的地方在于，它所追求的是让机器人真正摆脱遥控器，进而自主理解世界，并自主改变世界。

如果把这个模型与 RoboScience 机器科学那两篇连续获奖的论文放在一起来看，就会发现它们其实是一脉相承的。它们所做的都是同一件事，也就是把机器人从“实例-动作”的硬编码逻辑，重构为“关系-轨迹”的可泛化系统。而这套底层范式，正是 RoboScience 机器科学押下的最具价值的赌注。

具身智能的交叉学科特质表明，仅依赖单一类型的人才，往往很难真正跑通整个闭环。

如果一支团队仅仅擅长学术研究，那么往往能够写出 paper，却未必能够把成果真正做成产品；如果一支团队仅仅擅长工程实现，那么虽然能够完成硬件构建，却未必能够产出真正处于前沿的算法。像具身大模型这样一个既要求前沿原创、又要求规模化落地的方向，注定需要把这两类都十分罕见的人才整合到同一支队伍之中。

RoboScience 机器科学的稀缺性，恰恰就在于它把这两端的人才真正整合到了一起。

先来看首席科学家邵林。他是中国具身智能“斯坦福系”中的关键人物。本科就读于南京大学，博士毕业于斯坦福大学，师从机器人领域知名学者 Jeannette Bohg，联合导师则是 Leonidas J. Guibas，后者是美国三院院士，也是计算机图形学以及几何处理领域的奠基性人物之一。如今，邵林在新加坡国立大学（NUS）担任助理教授。

斯坦福的机器人学术圈，在过去几年间逐渐成为观察中国具身智能整体格局的一个重要坐标。苏昊（Hillbot 创始人）、王鹤（银河通用创始人）以及卢策吾（穹彻智能创始人）等人与邵林同属同一学术谱系。此后，这批人逐步支撑起了中国具身智能赛道的大半版图，这也意味着邵林天然在国内最前沿的学术圈层之中占据着一个具有坐标意义的位置。

更关键的是，邵林的研究主线自博士阶段起便始终围绕机器人操作的“通用化”展开：从早期的 UniGrasp，到 D（R，O） Grasp、Bi-Adapt，再到被 ICRA 2026 收录的 T（R，O） Grasp，其间可以清晰看到一条一以贯之的研究脉络：不断进行抽象、不断推进统一，并持续追求跨本体、跨物体的通用表征。

这种长期保持一致的研究方向，意味着 RoboScience 机器科学的技术底座并非临时拼凑的产物，而是一位顶尖学者历经近十年持续打磨所形成的方法论沉淀。

再看田野。他身上最为稀缺的，正是一套从中科大物理、斯坦福 AI Lab 到苹果 AI Platform 这一路径中持续打磨出来的工程化能力。田野本科毕业于中国科学技术大学物理系，硕士毕业于斯坦福大学 AI Lab，其导师则是被誉为“AI 布道者”的吴恩达。

毕业后，田野进入苹果并担任 AI Platform 技术负责人；这一职位的分量，只有真正身处 AI 圈的人才更能体会。他所主导打造的核心平台，被业内称为“苹果的 PyTorch 与 CUDA”，既支撑了多项关键 AI 技术在苹果生态中的规模化落地，也构成了苹果 AI 得以在数十亿台设备上稳定运行的基础设施。

换句话说，田野并不是通常意义上“懂技术的 CEO”，而是既懂前沿算法，也懂得如何把算法部署进十亿级别工业系统的稀缺工程领袖。

具身智能的产业化，恰恰最需要这种能力。如今，业内之所以把训练模型这件过去看似高深莫测的事情，在祛魅之后比喻为“工业生产”，就在于前沿模型若要变成能够批量部署、稳定运行、持续迭代的产品，所依赖的并不是某个聪明的算法巧思，而是工程底座——什么样的数据流水线能够稳定支撑模型训练，什么样的推理框架能够支持实时控制，以及什么样的工程范式能够在不同硬件上保持一致体验。这些都不是研究人员的强项，而是只有工业级 AI 工程师才能解决的问题。

也正因如此，邵林与田野的组合，构成了业内极为扎实的一种搭配：斯坦福学术领军者 × 硅谷工程领军者。

之所以这样说，是因为纵观中国具身智能这条赛道，多数公司要么以顶尖学者为核心，专注于0-1的技术攻坚；要么以工程背景的创业者为核心，更擅长推动1-10的扩展。像 RoboScience 机器科学这样同时把两类一线强者整合进同一支团队的组合，本身就是一种稀缺资源——这意味着这家公司既能持续在前沿原创上保持进展，也能在产品落地过程中避开工程层面的陷阱。

简言之，正是这种能力，使其得以穿越技术周期，并在长坡厚雪的具身智能赛道上行稳致远。