中国信通院发布AI Infra运维领域首个评测基准，为智算产业高质量发展树立新标尺

2026年06月30日 15:14

本文共计3691个字，预计阅读时长13分钟。

来源/资讯中国责编/LehuoChufang 乐活厨房

6月29日，在中国信通院人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟以及工信部人工智能标准化技术委员会联合主办的2026“众智”大模型开放智算生态协同高级别研讨会中，中国信通院副院长魏亮正式发布了AISHPerf人工智能软硬件基准体系3.0版本，其中包含两项AI Infra领域核心评测基准即AISHPerf智算运维智能体评测基准以及AISHPerf算子生成智能体评测基准，这两大基准借助国内顶尖AI原生基础设施服务商无问芯穹及清华大学团队作为重点技术支持方得以建设。

前者作为首个面向AI Infra的运维智能体评测基准，依赖于百亿级真实运维数据来构建，其核心在于考核智算运维智能体在真实生产场景中所能解决实际问题的落地能力。后者则跳出了“模型能否生成可运行GPU算子”这一基础维度，将评测重心锚定在“模型生成的算子能否在真实量化推理部署中替代现有算子”的工程可部署性方面，从而更加贴合产业实际落地需求。二者从底层算力优化到上层集群运维，共同为智算产业的标准化升级以及高质量发展提供了统一的能力参照框架。

AISHPerf（Performance Benchmarks of Artificial Intelligence Software and Hardware）是中国信通院与人工智能大模型及软硬件评测工业和信息化部重点实验室，借助人工智能软硬件协同创新与适配验证中心（其位于国家信创园）来联合构建而成的人工智能软硬件基准体系，该体系旨在设定多维度指标，从而对端到端方案对于模型以及应用场景的真实承载能力进行考察，并且对软硬件各层级之间所具有的协同优化水平、兼容适配能力以及整体交付效能开展系统评估。

在此次发布的两项基准当中，AISHPerf智算运维智能体评测基准显得尤为引人注目，它不仅标志着我国得以在智算集群运维智能体领域拥有首个权威评测体系，而且率先把国产芯片集群运维场景纳入评测体系之中并填补了国产智算运维智能体评测领域的空白，从而为构建自主自治的新一代“Token工厂”提供了运维领域的技术方向与标准指引。

构建新标准：该基准借助近百亿条真实运维数据来进行构造，从而成功实现了从纸上谈兵式的理论评估到实战考核的根本转变。

该做法不仅对智算运维智能体在真实生产场景中所能解决实际问题的落地能力开展了系统考核，而且特别把国产芯片集群运维场景纳入评测范围之中，得以填补相关领域空白并为自主自治的新一代Token工厂建设提供了运维标准指引。

随着AI发展从“堆算力、拼规模”迈入以“Token效能”为核心的新阶段之后，算力与电力投入已经成为了AI基础设施的“基础常量”，而高效率、高质量的运维能力，则是决定Token产出与生产力转化的“核心变量”。依托智能运维来提升算力利用效率、压降运营成本，已成为AI产业发展的必然方向。而当前业内对运维智能体的评估多停留在语言问答能力层面的“纸上谈兵”，这种方式往往更像是笔试，侧重考察知识记忆与标准答案复述，却缺乏针对真实运维场景的“实战考核”，从而无法反映智能体能否解决实际问题。

AISHPerf智算运维智能体评测基准正是一套锚定真实生产场景的实操型评测体系。它依赖于无问芯穹所沉淀的近百亿条真实运维数据作为底座，经过资深运维专家开展脱敏并进行精细标注和严格筛选，从而最终抽象提炼出103条高保真、高质量的典型评测用例；同时打通从底层硬件故障到用户侧软件Bug的全链路问题，从而构建起覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级、6种国内外芯片（其中5种属于国产芯片）的立体化科学评测体系。评测流程当中不明确指出故障根因，只提供真实的集群环境和有限的问题现象描述，要求智能体完成自主探索、自主排查和自主修复。最终输出时延、Token消耗、工具调用效率等关键维度的量化结果，全面客观地评估运维智能体在真实生产环境中端到端解决问题的能力。

促进新发展：借助五种国产芯片的全面覆盖，为国产算力集群从“能用”阶段迈向“好用”阶段提供了坚实的标准基础。

作为我国智算产业自主可控所依赖的核心底座，国产芯片近年来成功实现了从“跟跑”到部分领域“并跑”的关键跨越，并且已经成为全国算力基础设施体系的核心组成部分。据IDC统计，2025年中国市场AI加速卡国产化率已突破四成，国产GPU集群规模进入快速扩容期。但相较于成熟的通用GPU生态，国产芯片在硬件架构、驱动体系、通信协议以及框架适配等层面存在显著技术差异，这使得运维复杂度与难度更大，直接制约了国产算力的Token产出效率与投产效益，成为国产算力从“规模落地”向“效能释放”进阶的核心瓶颈。

AISHPerf智算运维智能体评测基准从设计之初便深度融入了对国产化生态的全面考量，率先在同类评测基准当中纳入了包括“天数、壁仞、沐曦、摩尔、昇腾”这5种国产芯片集群运维的特定场景以及典型问题测例，从而覆盖了国产GPU硬件故障、驱动适配、框架兼容、通信协议等方面的典型运维痛点，首次为国产智算运维智能体建立起了统一且可量化的评估标尺，成功填补了国产智算运维领域的标准空白。

未来，中国信通院将会持续从标准研制、测试验证、生态培育等多个方面来推动基准的产业应用工作，依赖于无问芯穹所积累的海量真实运维数据以及其在智算运维技术方面所具备的实战能力，不断丰富与国产芯片相关的评测用例内容，成功构建起更加体系化、全栈化的国产智算运维评测体系。一方面可以精准定位国产芯片集群运维所存在的共性痛点与工程难点，进而牵引产业链上下游开展协同攻关工作、补齐短板并强化弱项；另一方面则借助标准化评测来驱动运维智能化能力的升级，推动国产算力集群真正实现从 “能用” 到 “好用、高效、稳产” 的质变，为我国智算产业自主可控与高质量发展筑牢底层标准支撑。

锚定新趋势：指引AI基础设施向自主自治的“Token工厂”升级

随着人工智能产业发展从单纯堆积算力以及拼比模型规模的阶段，成功迈入了以Token产出效能为核心的新阶段，算力与电力投入已经成为了AI基础设施所具有的基础常量，而高效率高质量的智能化以及自主化的运维与优化能力，则成为了决定Token产出效率、生产力转化水平以及整体经济性的核心变量。AISHPerf两大智能体评测基准的发布，精准锚定了这一产业发展所出现的新兴趋势，从而为AI基础设施向具备自主自治能力的“Token工厂”方向开展升级工作提供了清晰的方向指引以及可量化的能力参照框架。

这一升级过程依赖于运维智能体成功实现了从理论知识问答向真实生产场景下自主探索、自主排查以及自主修复的根本转变，同时算子生成智能体则把评测重心从“能否生成可运行算子”拓展到了“生成的算子能否在真实量化推理部署环境中有效替代现有算子”的工程可部署性方面，二者共同构建了从底层算力优化到上层集群运维的全栈闭环体系。借助无问芯穹所沉淀的近百亿条真实运维数据以及清华大学团队的技术支持，该基准体系不仅填补了国产智算运维智能体评测领域的标准空白，而且为我国构建自主可控、高效稳产的新一代“Token工厂”提供了从标准研制到生态培育的系统性牵引，从而有力推动智算产业从规模扩张向效能释放的质变升级。

运维智能体所进行的深度应用，正在推动AI基础设施自身向“智能体”这一形态开展升级工作。未来的AI基础设施，将会成为能够进行自我感知、实施自我修复以及完成自我迭代的自主自治系统。内置的运维智能体将会扮演“管理者”的角色，依赖于训练与推理的具体需求来自动开展资源的调度工作以及对系统进行优化，从而得以实现算法与基础设施之间的深度协同。去年以来，无问芯穹已在自有AI基础设施当中率先部署了运维智能体，这使得工单平均处理时间缩短了50%，关键故障处理效率提升了约6倍，同时使综合运维成本下降了约30%，在算力与电能保持不变的前提下，成功实现了Token产能的显著提升。

AISHPerf智算运维智能体评测基准将会为AI基础设施向更高阶的“自主自治”范式开展演进工作奠定标准基础。它借助统一的评测体系，为构建高效、稳定以及自主的智能运维体系提供了指导，加速了运维智能体在AI基础设施之中的规模化应用，成功实现了Token产能的降本增效，使得每一度电和每一张GPU卡都能够产出更多更高价值的Token，从而助力打造出持续输出高质量、大规模、高效率AI生产力的“Token工厂”。
。

未来，中国信通院将会与无问芯穹以及清华大学深化产学研协同工作，对AISHPerf-智算运维智能体评测基准开展迭代优化，不断扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性，推动其成为行业公认的AI集群运维智能体能力评估公共基线，牵引全行业优质运维智能体的技术迭代与规模化落地。与此同时，双方也将持续拓展AI Infra全领域核心评测基准布局，构建起全栈的标准矩阵，为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座，助力我国智算产业稳步迈向高质量发展新阶段。

来源：中国信通院发布AI Infra运维领域首个评测基准，为智算产业高质量发展树立新标尺-资讯中国 | 资讯中国

声明：本文来自资讯中国，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。