首个国产千卡工科智算集群落地上海，海光信息联合同济大学打造AI4E国产算力样板

2026年06月26日 15:16

本文共计3270个字，预计阅读时长11分钟。

来源/财联社责编/MoRanShiguang 墨染时光

据《科创板日报》6月26日报道，记者郭辉消息，国内首个完全基于国产技术的千卡级工科智算集群已在上海正式建成并投入运营。

2024年6月25日，海光信息与同济大学正式签署了战略合作协议，并且正式推出了国内首个国产千卡工科智算集群。这一事件标志着国产算力首次以工程专用的形态来服务于高校的教育与教研工作，意味着AI基础设施完成了从科学智能领域向工程智能领域的关键延伸。

该集群以全国产的海光DCU作为核心算力底座，运用了超智融合架构，能够同步承载高端计算以及AI训练推理任务。在工程应用层面，集群对结构仿真、流体力学等核心工科场景开展了深度适配工作，并且借助海光自研的软件栈实现了对主流工程软件生态的兼容，从而让已有的工程代码可以低成本迁移至国产算力平台。除此之外，海光DCU能够全面支撑大模型安全护栏相关应用，在关键数据保护与模型输出管控等环节当中，为涉及重大工程数据的科研任务提供了安全保障。

海光信息总裁沙超群指出，此次合作代表了国产算力从AI4S到AI4E纵深落地的一次开创性攻关。AI4E所面向的工程仿真、智能建造以及工业研发等实体产业场景，对算力提出了有别于通用AI的复合型需求。

同济大学党委书记、中国工程院院士郑庆华表示，学校将充分依托该智算集群所提供的强大算力支撑，积极推动科研范式实现从传统模式向科学智能与工程智能深度融合驱动模式的转变，并致力于在此过程中，培养出更多既具备扎实工程素养又掌握前沿人工智能能力的复合型人才。

本次发布会结束后，海光信息总裁沙超群接受了包括《科创板日报》在内的多家媒体的采访。他围绕AI4E应用对算力底座构成的挑战、未来国产算力建设的发展路径，以及算力芯片的融合创新趋势等议题，进行了深入的交流与分享。

沙超群在致辞中指出，过去高校所应用的算力市场，普遍面临着适配难、迁移贵以及算力弱等一系列痛点问题。而当前人工智能与工程实体产业的深度融合，则对算力在兼容性、应用性与稳定性等方面能够提供可靠支撑提出了更高要求。

由海光信息与同济大学联合打造的算力引擎，其核心特点并不体现在算力规模的宏大或算力精度覆盖范围的广泛上，而是面向具体、垂直的实际应用场景，为其提供与之匹配的系统性解决方案。其目的在于使高校在工程智能领域的研究工作得以更加顺畅地开展，使现有的存量代码能够更平滑地完成迁移过程，并保障人工智能模型的应用能够快速部署上线。沙超群如此表示。

海光信息此次与同济大学合作建设了千卡工科智算集群，旨在解决AI在制造业的工程化落地问题。

该集群针对AI for engineering（AI4E）应用场景开展了深度优化工作，既能够满足大模型训练与推理方面的需求，同时也支持工程仿真及科学计算等多种任务。科研人员可以在统一的平台上开展相关工作，从而实现了成本降低与效率提升的目标。我们期望能够为更多高校推进人工智能赋能工程教育和工程科技创新提供可参考的实践样板。

相较于通用算力，AI4E工程智能所面向的垂直领域，对底层算力设施提出了有别于传统计算的新需求。

沙超群在接受《科创板日报》记者采访时指出，大模型的算力需求主要划分为训练与推理两大板块。在训练端，这一过程遵循缩放定律，模型参数规模从百亿、千亿逐步发展至如今的万亿级别，从而对算力的整体规模以及集群的扩展能力提出了持续提升的要求，并表现出高算力、高吞吐的密集型计算特征。而在海量并发的推理场景中，则侧重于对Profile与Decode流程进行优化，其核心思路是降低Token的输出成本，从而实现算力资源的高效利用。

而AI4E的应用方向，则覆盖了多种工业垂直应用场景。沙超群表示，这类应用场景对于模型的规模并无超高要求，但对模型本身的适配能力与通用迁移能力提出了较高的要求，需要能够快速实现技术方案的落地与移植。并且，多样化的工程场景可以进一步区分为计算密集型、数据密集型与通讯密集型等不同的计算需求类型。为此，海光需要在现有的工程计算框架下，根据各类具体应用需求，对计算算子、运行时库以及执行环境等核心组件进行针对性优化，从而在应用框架层面更好地适配具体的场景应用。

沙超群指出，纵观全球范围内人工智能领域的资本开支动向，可以看到人工智能基础设施建设的投资正在加速，市场各方对于未来的发展前景普遍持乐观态度。他进一步表示，未来中国算力基础设施的建设进程，仍将把国产供应链作为主要的驱动力量，这其中蕴含着巨大的增长潜力空间；与此同时，这也对海光这类提供算力基础支撑的厂商，提出了更为严格和全面的能力要求。

阐释未来国产算力发展路径

在AI应用逐步迈入深水区的背景下，针对如何应对未来国产算力建设所面临的诸多挑战，海光信息于6月25日在接受《科创板日报》等媒体采访时，对其三大战略方向进行了进一步阐释。

沙超群指出，在此前的Chatbot时代，对芯片的需求主要集中在GPU上。而到了AI智能体时代，CPU则需要承担更多的工作。无论是智能体的编排、记忆与上下文的调度，还是不同Agent所需的算力沙箱，这些方面的需求都在不断演变与提出新的要求。因此，对于国产算力的发展，可以形成三个方面的构想。

关于从英伟达Blackwell架构向Rubin GPU架构的迭代，沙超群指出，相较于前代，新一代架构在Token的性价比上取得了数倍提升。他强调，这种提升的根本原因在于系统层面的创新，而非仅仅依赖于单一GPU芯片的性能进步。沙超群进一步表示，海光在产品发展上也遵循着类似的系列化路径。他具体阐述道，海光构建了以CPU和DCU为核心的双芯算力底座。同时，针对Scale-up场景，海光还配备了HySwitch高速交换芯片、RDMA网卡与交换整机。此外，海光通过依赖于光合组织的生态，完成了全链路的国产化智算系统方案。未来，行业将会看到更多千卡乃至万卡规模的海光系统投入应用。

在系统能力得以提升的基础上，沙超群亦提及了生态开放的发展趋势。海光在国产算力产业中，持续倡导并践行开源开放的路线。过去一段时间内，公司不仅主动向业界开放了海光DCU及其配套的软件栈，同时对外开源了其自主研发的CPU高速互联总线技术HSL，从而实现了海光CPU与DCU之间的高效互联与协同。此外，海光牵头成立了专项工作组，已经吸引了大量产业链上下游的芯片厂商共同参与建设。开源与开放，同样是光合组织一直所倡导并确立的核心理念。

此外，沙超群表示，海光还将借助软硬件之间的深度协同，并依托系统层面的优化工作，以充分释放整机的综合性能；同时联合光合组织所涵盖的数千家应用企业、AI优化合作伙伴以及国内各大模型厂商，共同构建解决方案，致力于打造训练算力更为强大、推理场景性价比更优的国产算力整体方案。

在面向未来Agent应用范式的演进过程中，CPU所需处理的任务在总体工作负载中所占的比重将会持续增加，其中一个重要原因在于，随着智能体需要承担更加复杂与多样化的协调工作，CPU的角色将得到显著强化。与此同时，CPU与DCU在产品功能层面也将走向深度融合。

此前行业在选用异构双芯搭配方案时，由于CPU与加速芯片分属不同架构，跨架构的适配、调优以及协同工作，都不可避免地会带来显著的性能损耗。依托于海光“CPU+DCU”双芯一体化方案，用户不再需要区分算力优化工作具体由CPU还是DCU来承载，整套系统可以统一输出高效的算力，从而显著降低了高校科研人员等用户的开发适配成本。

因此，在未来的发展过程中，CPU将逐步承担起更多原先由专用加速芯片所处理的计算任务。与此同时，诸如推理、轻量化模型部署等特定场景下的轻量化应用，也可以直接在DCU这一计算单元上高效运行。对于那些产品布局仅局限于单一品类芯片的厂商而言，其现有的技术栈与产品架构将因此面临新的挑战，从而难以有效匹配这类兼具通用性与专用性的复合型算力需求。

海光方面表示，海光同时具备完整的CPU与DCU产品线，从而具备了先天性的技术平台基础，并已提前部署了针对双芯融合的相关技术研发工作。

来源：首个国产千卡工科智算集群落地上海海光信息携同济大学打造AI4E国产算力样板 | 财联社

声明：本文来自财联社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。