资讯

清华大学与腾讯混元赢得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

2026年05月25日 10:34

本文共计661个字，预计阅读时长3分钟。

来源/aibase 责编/huazi56 爱力方

清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布，在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。

面对万亿参数时代混合专家（MoE）架构在异构芯片(NPU)上的推理性能瓶颈，联合团队针对官方指定模型及NPU硬件设计了全链路优化方案。通过引入按专家拆分双核任务的E-Shard策略、PSUM三维张量批量读出、打散输出至多Bank并发的GEMV路径，以及利用标量引擎降低初始搬运延迟等组合拳，团队成功攻克了数据搬运不充分、激活反复搬运等底层算子痛点。

同时，针对注意力模块，团队重构片上数据布局并融合Transformer关键算子，实现了比特级高精度对齐。

图3:MoE 优化结构示意图，包含E-Shard专家切分、连续 DMA、PSUM/GEMV并发、冷启动流水和预取控制。

在此次角逐中，团队还联合研发了基于Agent的推理算子优化器“Knight”，通过方案提出、代码落地与复盘迭代的自动化闭环，大幅拓展了优化搜索空间。最终，该方案将模型端到端推理时间由14.91s缩短至3.56s，性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms，权重加载期间的DMA引擎利用率攀升至约80%。

击败Stanford、MIT等国际顶尖高校夺冠，不仅彰显了我国团队在大模型底层系统适配与算子优化上的深厚积累，也为未来超节点算力平台部署万亿参数MoE模型提供了极具价值的工程范式。

来源：清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军，NPU推理提速4.1倍 | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

匿名

2026-06-09

·

846 浏览
LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

匿名

2026-06-26

·

790 浏览
通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

匿名

2026-06-18

·

788 浏览
富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

匿名

2026-06-26

·

612 浏览
世界模型到底在建模什么

匿名

2026-06-29

·

560 浏览
余承东发声，鸿蒙智能将迈向Agent时代

匿名

2026-06-12

·

543 浏览

通知

尊敬的用户

user

资讯

清华大学与腾讯混元赢得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

清华大学与腾讯混元赢得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

周末要闻汇总：国常会部署加快新一代通信网、算力网建设长江存储IPO有最新进展

新产品配套英伟达产业链液冷概念股3天2板本周机构密集调研相关上市公司

2026世界人工智能大会期间，上海部分道路和区域将实施交通管制

上海发布两项通告加强2026世界人工智能大会安全管理

人民锐评：AI智能荐股？投资没有一键致富！

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

清华大学与腾讯混元赢得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

清华大学与腾讯混元赢得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

周末要闻汇总：国常会部署加快新一代通信网、算力网建设 长江存储IPO有最新进展

新产品配套英伟达产业链 液冷概念股3天2板 本周机构密集调研相关上市公司

2026世界人工智能大会期间，上海部分道路和区域将实施交通管制

上海发布两项通告 加强2026世界人工智能大会安全管理

人民锐评：AI智能荐股？投资没有一键致富！

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

推荐专栏

爱力方

机器人大讲堂

下一篇

周末要闻汇总：国常会部署加快新一代通信网、算力网建设长江存储IPO有最新进展

新产品配套英伟达产业链液冷概念股3天2板本周机构密集调研相关上市公司

上海发布两项通告加强2026世界人工智能大会安全管理