AI算力双主线趋势形成,国产CPU或迎价值重估

2026年06月17日 20:45
本文共计3425个字,预计阅读时长12分钟。
来源/证券时报网 责编/NuanxinXiaoMo 暖心小茉

在过往数年里,全球人工智能产业的算力发展叙事几乎完全由GPU所主导。高性能GPU已成为各大科技企业与算力中心竞相争夺的核心资源,而传统的通用型CPU在产业内的价值则一度遭到了显著低估。

近期,中科曙光正式发布了国内首个“百核级”通用计算平台,这一举措引发了业界对于通用计算赛道的高度关注。随着人工智能大模型的快速发展,中央处理器(CPU)与图形处理器(GPU)之间的功能界定、技术演进路径及其在产业中所扮演的角色,正迎来一轮基于产业需求的再平衡。

高精度计算领域存在着架构刚性门槛,这使得GPU很难跨越原生的精度鸿沟。

在科学与工程计算领域,对于计算结果的准确性要求往往会置于远高于计算速度的优先级,而这正是通用架构中央处理器(CPU)所具备的核心优势。

东南大学物理学院副教授李强表示,其课题组的工作是围绕功能材料开展多尺度模拟。由于该研究对收敛精度有着极高的要求,具体需达到10⁻⁵到10⁻⁶的量级,因此所依赖于的计算方式为FP64双精度计算。他指出,这类高精度计算并非图形处理器(GPU)的擅长领域,却是中央处理器(CPU)的传统强项所在。

两类芯片在计算精度上的差异,其根源在于两者底层架构的不同设计取向:图形处理器(GPU)的设计初衷是为了处理大规模并行且结构同质的计算任务,这使其特别适用于诸如图像渲染、大模型训练等能够被分解为海量重复操作的场景;相比之下,中央处理器(CPU)则集成了完整的逻辑控制单元与高精度浮点运算单元,从而能够高效处理结构复杂、包含大量串行逻辑指令与条件分支判断的计算任务。

从气象预报、大飞机气动仿真,到石油勘探、新药分子模拟以及集成电路电磁仿真等多个应用场景,科学工程领域对计算结果的唯一性与准确性均提出了极为严苛的要求。数值计算所得的结果必须严格符合物理规律,不能是依赖于统计概率的近似输出。"科学计算领域的算法包含着大量的逻辑判断与复杂分支,在这类任务场景中,CPU所具备的通用计算架构仍然拥有着显著的优势。"中国科学院计算机网络信息中心高性能计算技术与应用发展部主任金钟指出,"即便在异构系统中GPU的算力占比已经超过了99%,计算任务的分配、数据流的编排以及全流程的串联工作仍然需要由CPU来完成,它是整个系统的'大脑',其作用是不可或缺的。"

经过数十年的生态沉淀,迁移成本构筑了隐形的护城河。

如果说计算精度构成了中央处理器在技术层面的核心门槛,那么其成熟的生态系统与高昂的迁移成本则共同构筑了通用计算赛道更为深厚的产业护城河。高性能计算产业历经数十年的发展,在全球工业与科研领域已经积累了海量成熟的软件工具与工程化流程,而这些资产的底层构建逻辑,几乎全部是围绕通用型中央处理器以及x86指令集架构来设计和实现的。

就x86架构下的AVX-512矢量扩展指令集而言,它在全球高性能计算的软件生态中,已经成为事实上的标准性能优化方案。包括GROMACS与NAMD在内的主流科学计算套件,以及众多工业仿真商用软件的核心求解器,它们在核心计算模块的设计上,都深度依赖并紧密适配了AVX-512指令集所提供的底层硬件加速逻辑。

“用户现有的代码无需进行额外的编程工作或异构化改造,即可在中央处理器(CPU)上保持稳定运行,这使其必然成为首选方案。”金钟指出,“以第一性原理计算这类应用为例,行业内更倾向于依赖CPU,通过多线程技术来解决问题;只有当CPU的计算能力确实无法满足需求时,才会考虑进行异构化改造。这种成熟的生态壁垒,并非仅靠提升硬件性能就能在短期内打破。”

对于企业与科研机构而言,迁移到一套经过长期工程验证的工业软件或科研计算流程,不仅需要投入大量研发资源,还必须承担计算结果可能出现偏差以及业务连续性面临中断的风险。正因如此,即使GPU的标称算力更高,多数对计算可靠性要求严苛的工业场景,仍然会选择继续采用技术成熟且生态完备的CPU计算体系。这构成了该技术路线得以延续的核心考量。

此次由中科曙光正式推出的百核级计算平台,提供了对AVX-512指令集的原生支持,并保持了与x86生态的兼容性。它能够使得绝大多数现有软件无需重新编译便可在该平台上直接运行。其核心逻辑在于顺应了既有的产业生态规律:该平台并非意图构建一个全新的体系架构,而是借助于对现有生态的广泛兼容,从而有效降低了国产化替代方案在实际落地过程中的门槛。

AI驱动科学研究反向拉动CPU需求增长

一个常常被忽视的产业趋势在于:人工智能的发展并未对CPU的生存空间形成显著挤压,事实上,AI驱动的科学研究的兴起,反而在推动着对通用型CPU的市场需求。

伴随人工智能技术的日益普及,我们课题组对中央处理器(CPU)的实际需求量反而呈现出上升趋势。李强对此做出解释,人工智能驱动科学研究(AI4S)的核心基础在于获取高质量的训练数据,而在科学研究领域,大量训练数据需要依靠第一性原理计算来产生,而这类计算任务目前主要由CPU承担。此外,在数据预处理、清洗与对齐等一系列后续环节中,CPU所发挥的作用同样是不可替代的。

人工智能模型的能力奠基于海量的高质量数据集,而在科学领域,这类高精度数据集则主要源自于通用型CPU的计算生产。具体而言,数据的生成过程、整体逻辑控制以及高精度方程求解,通常由CPU来完成;大规模并行加速与复杂模式识别任务,则交由GPU来承担。两者正在形成一种“高精度底座与智能加速”深度结合的协同范式,这也就是产业界所提出的“超智融合”模式。

中科曙光解决方案与创新业务总经理张磊认为,未来GPU与CPU将形成协同互补而非相互替代的关系。GPU擅长处理并行度高的暴力求解任务,CPU则承担起核心逻辑控制与高精度计算的工作,二者各自在适用的领域发挥作用。由于工业领域大量商用软件仍然以CPU为计算核心,这一格局在可预见的时间内不会发生改变。

业界的普遍看法是,未来算力体系并不会是完全由单一架构所主导。在科学研究领域,不仅需要依赖低精度的智能计算用以提升效率,同时也必须依赖高精度的通用计算来保障结果的可靠性。因此,数学模型与数据模型两者之间势必会形成更加深入的互补关系,而高低精度算力彼此协同运作,也将会成为产业未来发展的一种常态。

国产算力实现突破性进展,完成从基本可用迈向高效好用的全栈能力系统性提升。

当前国产通用算力的发展正处于从基本可用迈向高效好用的关键跨越期。过去国产算力平台往往因性能不足以及生态体系较为薄弱而备受关注,而现阶段不仅在单芯片性能方面逐步追平国际旗舰水平,同时在系统级优化与全栈协同等方面也逐步形成了自身独特的技术特色。

以此次发布的“百核级”计算平台为例,其技术突破的核心并非单纯堆砌处理器核心数量,而是通过“算—存—传”三级的深度协同与系统级优化,来有效解决了传统架构中固有的内存墙与通信墙难题。具体而言,在计算层,它引入了Burst Buffer缓存加速机制与Socket Direct通信优化技术;在存储层,实现了硬件级别的并行重构;在自研的高速网络交换机支撑下,网络层成功将端到端时延压缩至0.93微秒,并支持高达11.4万核的大规模组网。同时,该平台提供了风冷、冷板液冷以及浸没液冷三种散热形态,使其最低PUE值(即数据中心总能耗与IT设备能耗的比值)能够达到1.04,从而充分适配了现代算力中心对于双碳目标与节能减排的需求。

在过去,单纯依赖堆砌芯片的方式往往会遭遇内存墙、发热墙以及供电墙等多重瓶颈,而现在我们所采取的策略是从底层芯片到上层软件的全栈平台创新路径,通过系统化创新来有效破解传输墙与内存墙等关键技术难题。”中科曙光高端计算总工程师李建军表示,当前国产平台的基准性能与应用性能,已经与国际主流最高端产品处于同一水平线,部分指标甚至实现了超越。

不过,业内普遍持有这样的观点:硬件性能的追平仅仅是国产算力实现突破的第一步,而生态体系的完善仍然是一项需要长期推进的艰巨任务。金钟指出,生态建设是一项复杂的系统性工程,它无法在短时间内一蹴而就,而是需要投入大量的人力资源与资金支持,并且依赖于产业链上下游各方的紧密协同与配合。他认为,如果能够在重点领域集中优势资源进行持续投入,那么在一定时期内,完全有希望将相关生态建设到令人满意的程度,从而让国产中央处理器(CPU)真正在硬件性能与软件生态两个层面都跻身于世界一流行列。

校对:李凌锋

来源:AI算力,双主线来了!国产CPU或迎价值重估 | 证券时报网

声明:本文来自证券时报网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/