RSS 2026 | GuidedVLA:通过动作注意力专家化提升VLA模型对任务相关因素的可控可解释性

RSS 2026 | GuidedVLA:通过动作注意力专家化提升VLA模型对任务相关因素的可控可解释性

VLA模型动作解码器常成黑箱,易看错重点(如背景或伪相关)。GuidedVLA通过可控可解释的注意力专家分工(Object Head、Skill Head、Depth Head)显式指定任务相关因子,显著提升机器人抓取、放置等动作稳定性与可解释性。RSS 2026接收,代码开源。

2026-06-12 19:19
0
0

余承东表示大模型战场无第二,华为盘古大模型全面进阶2.0

余承东表示大模型战场无第二,华为盘古大模型全面进阶2.0

在华为开发者大会2026上,余承东隆重发布开源盘古大模型2.0,参数规模达505B。作为全球最早布局大模型的华为先驱者,这次全栈技术迭代标志着华为AI生态的全面进阶。余承东向开发者喊话:“没有第二,只有第一”,华为将持续领先,助力鸿蒙生态赋能行业应用,为开发者提供强劲底层支撑,展现华为在AI领域前所未有的专注与决心。

2026-06-12 15:41
0
0

佑驾创新与乐动机器人达成合作

佑驾创新与乐动机器人达成合作

佑驾创新与乐动机器人达成战略合作,联合打造物理AI技术底座,共建全场景物理AI产品矩阵。双方将开发面向通用物理智能的世界模型,打造软硬件一体化末端配送解决方案,并推出以“情绪价值”为核心的多模态交互机器人,聚焦共情、实时、拟人特性。同时共建深圳、长沙等城市无人车+机器人示范基地,推动物理AI与具身智能规模化落地。乐动机器人作为智能机器人领军企业,助力物理AI从研发走向商业化。

2026-06-12 10:27
0
0

英伟达携手 Abridge 开发医疗 AI 模型 将在今年晚些时候投入使用

英伟达携手 Abridge 开发医疗 AI 模型 将在今年晚些时候投入使用

英伟达携手医疗AI公司Abridge,基于其开放模型Nemotron训练医疗专用AI模型,专为临床对话场景设计。Abridge使用去标识化临床数据定制模型,预计今年晚些时候投入使用。该合作将提升临床决策支持与文档处理能力,推动AI在医疗行业的应用。

2026-06-11 23:59
0
0

机器人训练场可能要搬进世界模型中

机器人训练场可能要搬进世界模型中

智元GE-Sim 2.0登顶WorldArena,揭开机器人世界模型新篇章。它不再仅生成视频预言未来,更补齐动作响应、状态反馈与闭环训练三大接口:本体状态专家、奖励评判器,实现从视觉感知到具身任务闭环的系统升级。标志着机器人世界模型正式迈向“可运行训练场”,为通用机器人策略闭环提供强大支撑。

2026-06-11 18:19
19
0

谷歌在Mythos阴影下低调发布模型,速度提升4倍

谷歌在Mythos阴影下低调发布模型,速度提升4倍

谷歌悄悄推出DiffusionGemma扩散模型:26B参数MoE,仅激活3.8B,推理速度比自回归Gemma快4倍(H100 1000+ tokens/s)。抛弃逐Token模式,一次铺开256 token并行生成,适合本地推理(一张4090即可)。Apache 2.0开源,推理时支持双向注意力,可实时自我纠错。加速“天下武功唯快不破”的时代!

2026-06-11 16:32
0
0

谷歌联合英伟达发布开源模型DiffusionGemma,引入扩散机制单卡推理提速4倍

谷歌联合英伟达发布开源模型DiffusionGemma,引入扩散机制单卡推理提速4倍

谷歌联合英伟达于2026年6月10日发布实验性开源模型DiffusionGemma,首创将图像扩散机制引入文本生成,打破自回归范式。模型通过从随机噪声迭代优化实现一次性并行输出256个标记,260亿参数MoE架构单步激活仅38亿。在H100上单请求输出速度达每秒1000标记(RTX5090超700),在文本补全、代码填空、数独、氨基酸序列等非线性任务中展现显著优势。权重基于Apache2.0在Hugging Face开源,兼容vLLM、MLX等框架,为AI复杂逻辑生成开辟新路径。

2026-06-11 10:55
0
0

谷歌发布 DiffusionGemma:通过文本扩散架构加速 AI 推理

谷歌发布 DiffusionGemma:通过文本扩散架构加速 AI 推理

谷歌6月10日发布DiffusionGemma开源模型,采用文本扩散架构实现文本到文本的非自回归推理。性能测试显示,该模型在专用GPU上的文本生成速度最高可提升4倍,特别适合本地设备及低并发场景。模型目前定位为研究实验性产品,输出质量无法与Gemma4媲美,建议开发者关注其在AI推理效率提升方面的潜力。

2026-06-11 09:17
0
0

小米开源终端AI编程助手MiMo Code内置免费顶级多模态模型

小米开源终端AI编程助手MiMo Code内置免费顶级多模态模型

小米技术团队开源终端 AI 编程助手 MiMo Code V0.1.0,内置免费顶级多模态模型 MiMo-V2.5。独创持久记忆系统、Harness 与 Compose 模式,结合语音交互实现全口头操控。在 SWE-Bench Pro 获 62% 分数,超越 Claude Code。MIT 协议开源,专为开发者打造高效、自进化的本地编程工具。

2026-06-11 09:17
99
0

清华《Science Advances》刊文,水面机器人集群涌现“群体智能”

清华《Science Advances》刊文,水面机器人集群涌现“群体智能”

清华大学团队在《Science Advances》发表论文,首次实现水面微型机器人集群(ARS)自组织临界性(SOC)。仅靠发光吸引和水波排斥的局部交互,机器人群自发演化出尺度不变的幂律分布和1/f噪声,涌现“雪崩”式集体行为。实验和模拟证实系统在宽泛参数范围内(亮度、密度、规模)均能稳定临界态,可用于智能涌现应用。

2026-06-10 18:29
0
0

腾讯与人大高瓴联合开发开源规划评测框架 PlanningBench

腾讯与人大高瓴联合开发开源规划评测框架 PlanningBench

腾讯混元团队与人大高瓴人工智能学院联合推出开源规划评测框架 PlanningBench,旨在系统化评测和训练大语言模型的规划能力。该框架抽象出30多种规划任务类型(如日程排布、资源分配、人力排班等),通过可验证数据生成与Checklist评估,精确诊断复杂约束下的真实规划能力。训练后模型在未见任务上表现显著提升,为AI规划研究提供真实场景闭环工具。

2026-06-10 18:25
0
0

摩尔线程发布并开源首个全链路自研代码大模型MusaCoder

摩尔线程发布并开源首个全链路自研代码大模型MusaCoder

摩尔线程发布并开源首个全链路自研代码大模型MusaCoder,基于国产全功能GPU完成训练与验证,在KernelBench评测中表现优异。文章介绍了其技术突破、性能优势及对国产AI算力生态和自主可控研发体系的推动作用。

2026-06-10 17:45
0
0

上海创智学院与上海交通大学联合智动未来提出MINT模型:让VLA从模仿轨迹走向理解意图

上海创智学院与上海交通大学联合智动未来提出MINT模型:让VLA从模仿轨迹走向理解意图

本文介绍上海创智学院、上海交大等提出的MINT框架,聚焦VLA模型的强泛化与强迁移能力。MINT通过频谱分解动作词元化与意图—执行分层生成,让机器人不再只模仿轨迹,而是理解行为意图,从而提升组合泛化与小样本迁移能力。

2026-06-10 17:05
0
0

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta与斯坦福深度解读

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta与斯坦福深度解读

深入剖析Claude Code背后的Agent Harness机制,UIUC、Meta、斯坦福三方综述揭示代码在长期执行中的核心角色,探讨可执行、可检查、有状态特性如何支撑编程代理的循环反馈与协作。

2026-06-10 16:20
0
0

OpenAI科学家Noam Brown:AI的真正上限可能根本没人测得起

OpenAI科学家Noam Brown:AI的真正上限可能根本没人测得起

OpenAI科学家Noam Brown指出,AI模型能力越来越依赖推理阶段的计算资源(如token数量、费用和时间)。传统基准测试的单一分数已无法准确反映真实表现,尤其在长链推理、网络安全等复杂任务中。他建议转向“性能—推理计算量曲线”评估方式,帮助行业更科学地理解模型上限与成本效益。

2026-06-10 16:16
0
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/