资讯
腾讯与人大高瓴联合开发开源规划评测框架 PlanningBench
腾讯混元团队与人大高瓴人工智能学院联合推出开源规划评测框架 PlanningBench,旨在系统化评测和训练大语言模型的规划能力。该框架抽象出30多种规划任务类型(如日程排布、资源分配、人力排班等),通过可验证数据生成与Checklist评估,精确诊断复杂约束下的真实规划能力。训练后模型在未见任务上表现显著提升,为AI规划研究提供真实场景闭环工具。
摩尔线程发布并开源首个全链路自研代码大模型MusaCoder
摩尔线程发布并开源首个全链路自研代码大模型MusaCoder,基于国产全功能GPU完成训练与验证,在KernelBench评测中表现优异。文章介绍了其技术突破、性能优势及对国产AI算力生态和自主可控研发体系的推动作用。
上海创智学院与上海交通大学联合智动未来提出MINT模型:让VLA从模仿轨迹走向理解意图
本文介绍上海创智学院、上海交大等提出的MINT框架,聚焦VLA模型的强泛化与强迁移能力。MINT通过频谱分解动作词元化与意图—执行分层生成,让机器人不再只模仿轨迹,而是理解行为意图,从而提升组合泛化与小样本迁移能力。
Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta与斯坦福深度解读
深入剖析Claude Code背后的Agent Harness机制,UIUC、Meta、斯坦福三方综述揭示代码在长期执行中的核心角色,探讨可执行、可检查、有状态特性如何支撑编程代理的循环反馈与协作。
OpenAI科学家Noam Brown:AI的真正上限可能根本没人测得起
OpenAI科学家Noam Brown指出,AI模型能力越来越依赖推理阶段的计算资源(如token数量、费用和时间)。传统基准测试的单一分数已无法准确反映真实表现,尤其在长链推理、网络安全等复杂任务中。他建议转向“性能—推理计算量曲线”评估方式,帮助行业更科学地理解模型上限与成本效益。
具身机器人研究全都错了?最新论文:不能只靠VLA和世界模型
具身机器人研究的主流范式面临挑战。最新arXiv论文指出,仅靠更大的VLA模型和世界模型难以实现通用物理智能,当前研究存在机器人原生监督、弱监督视频和仿真模型的明显局限。论文提出缺失的四个核心组件(数据接口、具身接口、世界模型接口、奖励接口)及“具身自动标注”等未来方向,为构建真正可泛化的物理智能机器人提供新思路。
Anthropic发布最新Claude模型Fable 5/Mythos 5,探索安全与效能的平衡之道
Anthropic正式发布Claude 5系列模型,包括面向大众的Claude Fable 5和专注安全需求的Claude Mythos 5。Fable 5在软件开发、科研分析、视觉识别等领域大幅提升效能,并通过新型分类器实现安全防护与开放能力的动态平衡;Mythos 5则为科研机构提供生物研究等高安全应用突破。该系列以强劲性能和严谨安全架构,为企业数字化转型与前沿科研注入智能化动力。
讯飞星火医疗大模型V3.5正式亮相
6月9日,讯飞星火医疗大模型V3.5正式亮相!作为全国产算力训练的深度优化版本,该模型精准锚定临床诊疗与居民健康管理两大场景,在多模态数据融合、长文本推理及循证医疗决策等关键能力上实现实质性突破。助力医疗机构数字化转型,提升AI在病历处理、精准诊断与个性化健康建议中的专业性与准确度,加速国产AI在医疗垂类应用的深入发展。
Gemini 3.5 实时语音翻译模型正式发布,告别“翻译腔”
谷歌发布 Gemini 3.5 Live Translate 实时语音翻译模型,支持70余种语言近乎同传,已接入 AI Studio、Google 翻译和 Meet,为开发者与企业协作带来低延迟、自然流畅的跨语言沟通体验,并兼顾安全合规。
清华大学在《Science Advances》发文,水面机器人集群涌现群体智能
清华大学研究团队在《Science Advances》上发表突破性成果,开发了一种水面微型机器人集群。这些机器人仅通过发光吸引和水波排斥的简单物理交互,就自发演化出自组织临界态,涌现出群体智能行为,如推动物体和搭桥梁。研究证明了在可编程人工系统中实现复杂系统的'普适语法',为机器人集群和复杂系统研究提供了新见解,展示了鲁棒的涌现功能。
北科大张建华团队打造爬壁钢铁卫士 应用于亚洲第四大水电站高危直角场景
北京科技大学张建华团队研发首款全场景内外直角翻越重载轮式爬壁机器人RWTCbot,突破了高空钢结构运维中的‘不可能三角’技术瓶颈。该机器人集成原创被动旋转关节、可升降辅助磁吸模块和自适应控制算法,实现百公斤级载重和全场景直角过渡,已在亚洲第四大水电站乌东德水电站实地应用,为工业高空作业提供高效、安全的自动化解决方案。
Anthropic 即将发布公开版 Mythos 模型
Anthropic 即将发布其网络安全模型 Mythos 的公开版本,以“Fable5”为名推出。该模型最初仅限于特定机构,现在面向公众,并嵌入严格安全防护措施。新模型优化了长周期、多步骤任务处理能力,适用于网络威胁检测和安全审计等场景,旨在推动AI安全标准演进,为企业提供更安全的智能化助手。
中科院发布空间智能综述:认知地图是机器理解世界的关键
中国科学院自动化研究所等机构发布综述论文,提出认知地图作为空间智能的核心表征。该概念将传统生物认知扩展为现代AI系统中的内部蓝图,通过抽象性、全局性和持久性,使智能体能从局部观察构建全局空间理解。论文统一了空间感知、推理与生成的研究,为机器真正理解世界提供了框架。
DexHoldem:机器人打德州扑克的真正挑战是维护游戏秩序
本文介绍了DexHoldem系统,它通过让机器人在真实德州扑克桌面环境中操作扑克牌和筹码,来评估具身智能的核心挑战。研究重点不在于扑克策略,而是机器人如何感知状态、决策并执行灵巧操作,同时保持桌面环境可持续用于后续任务。DexHoldem作为一个benchmark,涵盖了低层操作、视觉理解和系统级闭环,展示了机器人在复杂物理交互中的潜力与价值。
Kimi Code开源编码代理重大升级:CLI一键安装和视频上下文支持
Moonshot AI旗下的开源编码代理Kimi Code迎来重大升级,通过CLI一键安装大幅提升易用性,并新增视频上下文支持,允许用户拖入视频作为编码参考,涵盖LUT引用、屏幕录制转代码等多模态开发场景。此外,升级还包括丰富插件生态和平台兼容性增强,支持ACP协议并兼容JetBrains等主流编辑器,为开发者提供更高效、智能的编码解决方案。