资讯
南洋理工、伯克利、斯坦福、ETH联合发表机器人世界模型综述
这篇综述论文由南洋理工、伯克利、斯坦福等顶尖机构联合发表,系统梳理了机器人学习中世界模型的研究现状。文章定义了世界模型在机器人语境下的核心能力,包括预见性、规划和数据增强,并探讨了其与策略耦合的五种范式,如解耦式管道和统一VLA模型。同时,分析了世界模型作为仿真器的双重角色,为机器人学习领域提供了全面视角和未来挑战。
火山引擎发布业界首个Agent套餐包,整合多模态模型与联网工具
火山引擎发布业界首个Agent套餐包Agent Plan,整合自研及第三方多模态模型,并集成联网搜索等工具,采用Model与Harness双驱动模式。该计划引入AFP统一计量,提供阶梯订阅,旨在降低Agent应用开发门槛,加速AI在短视频制作、自动化办公等场景的爆发,标志着大模型竞争从参数转向生态集成。
具身大模型R1时刻:LIBERO终结者实现99.9%物理推理新范式
本文介绍了具身大模型的新突破LaST-R1,它通过隐空间物理推理和强化学习优化,使机器人在行动前进行物理思考,而非简单模仿。在LIBERO benchmark上达到99.9%成功率,真机任务中比现有最强模型π0.5高出22.5%,显著提升了泛化能力。这一范式解决了传统模型在环境变化时失效的问题,为机器人操作提供了更稳定的物理推理基础。
中国移动推出全新AI模型服务平台MoMA,让智能触手可及
中国移动在2026年5月8日发布了移动模型服务平台MoMA,该平台接入超过300款主流AI模型,通过统一的API网关实现一次接入即可使用所有模型资源。MoMA旨在降低AI应用门槛,提供智能路由引擎自动选择最佳模型,降低成本约30%,并推出‘机密模型’服务确保数据安全。平台采用流式实时计费,解决资源浪费问题,助力政务、金融、工业等多个领域的智能化发展。
Genesis AI发布GENE-26.5机器人基础模型,实现从烹饪到钢琴等只有人手才能完成的任务
Genesis AI发布了GENE-26.5机器人基础模型,该模型通过拟人化的机械手和数据采集手套,使机器人能够以人类级别的灵巧度执行复杂任务,如烹饪和钢琴演奏。文章介绍了模型的技术逻辑、数据策略和仿真系统,展示了机器人技术在缩小'具身性差距'方面的重要进展,为构建通用机器人奠定基础。
斯坦福团队利用弹性弯杆创造具有两千万种变形的思考型机器人骨架
斯坦福大学团队开发了‘弹性杆折纸’(RodOri)平台,利用预弯曲弹性杆构建可重构机器人骨架。该系统能在两千万种形态间自由切换,通过手动扭转调整力学性能,如刚度从软到硬,无需电机或芯片。这一创新为软体机器人、自适应装备和可编程超材料领域提供了新突破,实现了更多稳定形态和更自由调控。
北京大学仉尚航团队提出LaST-R1框架,机器人首次实现“边想边做”
北京大学仉尚航团队提出LaST-R1框架,针对当前视觉-语言-动作模型缺乏物理推理能力、适应性差的问题,通过将潜在空间中的物理推理嵌入强化学习优化回路,使机器人能够实现‘边想边做’。该框架同步优化推理表示和动作策略,显著提升机器人在真实环境中的适应性和任务成功率,推动机器人智能向更自主、灵活的方向发展。
VLA与世界模型对比,π0.7确定短期落地最优解
文章探讨了Physical Intelligence发布的π0.7 VLA基座模型如何突破机器人行业瓶颈,通过组合泛化实现任务举一反三、软硬件解耦支持跨本体适配,并革新数据利用方式,将失败素材转化为学习资源。π0.7降低了部署成本和门槛,推动通用机器人从概念走向现实,为短期落地提供了最优解决方案。
清华大学与星尘智能团队CLAP框架使机器人能从视频中学习技能
清华大学和星尘智能团队开发的CLAP框架,通过对比学习将人类视频中的视觉动作与机器人物理动作空间对齐,使机器人能够从海量视频中学习技能。该框架解决了传统方法数据采集成本高、泛化差的问题,利用ActVAE和VDVAE两个自编码器处理不同模态数据,建立跨模态对齐桥梁,提升了机器人的学习效率和泛化能力。
港大与复旦联手推出TAMEn实现亚毫米触觉操控与100%复现解决双手机器人数据采集难题
香港大学与复旦大学等机构联合推出TAMEn触觉感知操纵引擎,针对双手机器人在柔性物体抓取、精密装配等高接触任务中的数据采集难题。TAMEn通过视觉-触觉闭环系统,实现亚毫米级精度和100%数据复现率,支持双模式硬件切换和在线可行性校验,有效解决了精度与便携性矛盾、硬件适配难、数据清洗耗时等问题,为机器人策略学习提供高质量数据。
蚂蚁百灵发布万亿级思考模型 Ring-2.6-1T,支持推理强度自定义
蚂蚁百灵近日发布万亿级思考模型Ring-2.6-1T,专为Agent工作流、工程开发及科研分析等复杂生产环境打造。该模型核心引入可调节的Reasoning Effort机制,提供high与xhigh两种推理强度模式,旨在平衡推理能力与资源消耗,解决成本与效率难题。评测中high模式在PinchBench获得87.60分,超越竞品;xhigh模式在AIME26和GPQA Diamond上表现优异,推动AI智能体企业级落地。模型已上线免费体验并计划开源,标志大模型竞争转向推理效能精细化。
商汤科技推出 SenseNova 6.7 Flash-Lite,消耗大幅降低 60%
商汤科技近日发布了 SenseNova 6.7 Flash-Lite,一款轻量化多模态智能体模型。该模型采用创新架构,取消视觉转中间层,实现参数量更小、能力更强,在权威基准测试中取得 SOTA 成绩。Token 消耗相比传统模型降低60%,支持毫秒级反馈,满足高频互动需求。模型已应用于金融、制造、医疗和教育等多个行业,具备行动决策、工具链编排等五大核心能力。商汤科技还提供限时免费使用计划和开源技能,助力开发者快速上手。
机器人成功复刻膝跳反射 人类最快神经回路首次在仿生腿上跑通
德国斯图加特大学的研究团队成功在仿生腿上复现了人类的膝跳反射,这是人体最快的单突触神经回路。他们使用气动人工肌肉和传感器,严格按照人体解剖数据构建机械腿,并通过实验验证了机器人的反射行为与人类一致。这项研究证明了将生物反射回路移植到物理硬件上是可行的,为机器人控制和仿生学提供了新思路。