资讯
百度智能云发布国内首款企业级营销数字员工OpenClaw
百度智能云客悦推出国内首个基于OpenClaw框架的企业级营销数字员工解决方案,融合自主执行能力与企业级安全合规要求,上线四大标准化营销Skills,覆盖内容生成、视频制作、文案优化与语音呼叫等场景,支持移动端一键调用,助力企业提升营销效率,推动‘一人公司’时代加速到来。
智谱推出GLM-5-Turbo 专为龙虾智能体优化的基座模型
智谱AI发布GLM-5-Turbo,专为开源智能体“龙虾”优化,全面提升长链路任务执行能力。通过强化工具调用、指令拆解与时间感知,实现高效稳定运行。真实测评表现领先,支持企业级安全与终端硬件适配,助力AI成为全天候数字劳动力。
英伟达推出Nemotron 3系列开源模型 推理效率提升5倍
英伟达在2026 GTC大会上发布Nemotron 3系列开源模型,凭借Blackwell架构优化,推理效率提升5倍。新模型涵盖多模态交互、物理AI、机器人及医疗科研领域,支持从云端到边缘的快速部署,助力智能体与具身智能发展。
UNC团队攻克VLA模型痛点 新方案提升任务成功率17%
北卡罗来纳大学教堂山分校团队揭示VLA模型在真实场景中因视觉主导语言而产生的指令偏离问题,提出无需修改架构的CAG优化方案,通过双分支对比引导语言决策,使任务成功率平均提升17.2%,反事实失效显著减少,为具身智能落地提供关键突破。
阿里通义开源影视级配音模型Fun-CineForge 解决音画同步问题
阿里通义实验室发布开源影视级配音大模型Fun-CineForge,首次引入时间模态概念,攻克音画不同步、情感表达缺失等难题。支持复杂场景下的精准配音,配套CineDub数据集构建流程显著降低标注成本,已在GitHub、HuggingFace和魔搭社区上线,推动AI语音技术向影视后期制作迈进。
清华开源OpenMAIC 打造AI多智能体虚拟课堂 一键生成沉浸式互动教室
清华大学开源OpenMAIC多智能体互动课堂平台,通过大语言模型驱动,将任意主题或文档转化为沉浸式学习体验。该平台支持AI老师、助教和同学多角色协作,一键生成完整课程,包括讲义、测验、实验和项目任务,极大提升互动性和陪伴感。OpenMAIC已在GitHub开源,为AI教育领域带来重大创新。
智谱发布国产首款龙虾场景原生模型GLM-5-Turbo 自研基准领先
智谱发布GLM-5-Turbo基座模型,专为复杂Agent场景优化,具备工具调用、指令拆解等核心能力,在自研基准测试中位居国产模型首位。该模型已在全球首款原生AI Agent终端“龙虾盒子”中首发接入,并推出订阅体系和企业级安全管理方案,推动大模型向企业数字劳动力转型。
密歇根斯坦福联手Figure AI推出机器人记忆基准RoboMME
密歇根大学、斯坦福大学与Figure AI联合发布机器人记忆基准RoboMME,首次系统性地将机器人记忆能力划分为时间、空间、物体和程序四大维度,涵盖16项任务与770k高质量时序数据。该基准强制机器人进行历史依赖推理,破解传统评估碎片化难题,并通过14种VLA模型对比揭示不同记忆表征的适用场景,推动具身智能向更复杂现实任务迈进。
中国团队研发HUSKY框架 人形机器人变身滑板高手
中国团队最新研发的HUSKY框架,成功实现人形机器人在真实场景中稳定操控滑板,突破了动态平衡、推滑转向切换等关键技术难题。通过物理感知与对抗性运动先验结合,机器人不仅能自然发力,还能精准控制转向,展现出类人滑行能力,为智能机器人在复杂环境中的运动控制开辟新路径。
智谱推出AutoClaw本地化Agent工具 集成Pony-Alpha-2模型可一键部署
智谱发布本地化AI Agent工具AutoClaw,集成专为智能体优化的Pony-Alpha-2模型,支持macOS与Windows分钟级一键部署。内置AutoGLM Browser-Use能力,预置50+高频场景Skills,兼容多款主流大模型API,助力用户轻松实现自动化任务执行,推动AI从对话式向自主行动跃迁。
八大VLM操控机器人实测:Gemini登顶 GPT-5.2全败 三大缺陷曝光
普渡大学与意大利理工学院联合测试8大主流视觉语言模型(VLM)在实体机器人操控中的表现,Gemini Flash以75%成功率夺冠,而GPT-5.2等模型表现不佳。测试揭示了VLM在物理世界中的三大致命缺陷,并指出闭环推理与模块化设计是提升机器人操控能力的关键。
NVIDIA开源大模型Nemotron 3 Super性能媲美GPT-5.4
英伟达发布开源大模型Nemotron 3 Super,采用创新的Mamba-MoE混合架构,推理速度提升300%,性能直逼GPT-5.4。该模型支持1M超长上下文,已在多项权威测评中表现优异,并被多家科技巨头集成。
Hume AI开源TADA模型 手机端可流畅运行700秒长音频
Hume AI开源了其最新TTS模型TADA,采用文本-声学双对齐架构,实现5倍速生成与零内容幻觉,支持多语言并在低功耗设备上运行长达700秒长音频。该模型还支持同步转录,提升语音交互与内容创作效率。
OpenRouter推出匿名模型Hunter Alpha和Healer Alpha 支持1T参数与多模态输入
OpenRouter 平台上线了两款匿名新模型 Hunter Alpha 和 Healer Alpha,分别拥有最高 1T 参数量和 262K token 上下文窗口,支持多模态输入。两款模型均被推测与智谱AI相关,具备强大的推理与执行能力,目前免费使用。
智元机器人ACoT-VLA框架获CVPR 2026收录 实现机器人动作空间自主决策
本文介绍了智元机器人联合北航团队提出的ACoT-VLA框架,该框架直接在动作空间进行思考决策,成功解决机器人执行动作中的语义与运动鸿沟问题,并在LIBERO、LIBEROPlus和VLABench三大基准测试中取得优异成绩。文章也探讨了其技术原理和创新点。