华为：构筑智能汽车大模型的算力根基

2026年06月19日 10:37

本文共计5142个字，预计阅读时长18分钟。

来源/资讯中国责编/TouziXiaohu 投资小狐

当前，智能驾驶辅助技术正快速普及，推动新能源车型的智能驾驶渗透率持续走高。在模型、数据以及训练节奏方面，行业实现了全面升级，这使得算力已然成为车企竞争的核心焦点。同时，行业正从L2+级别逐步向L3、L4乃至L5阶段演进，技术路线也从传统模型向端到端、VLA及世界模型过渡。这一过程对算力规模、数据体量以及集群调度能力提出了近乎断崖式的提升要求，而行业还同时面临数据挖掘、标注、路测验证三大现实难题。

2026年6月17日，在第九届智能驾驶与出海大会上，华为技术有限公司智驾解决方案专家黄梓亮进行了介绍。华为基于昇腾AI打造了全栈算力底座，并通过自研芯片、服务器以及超节点集群，构建了多层次的算力产品矩阵。借助架构创新与芯片迭代，成功实现了高性能与高稳定性。同时，依靠Driving SDK、工具链及大模型能力，覆盖了数据处理、模型训练、仿真以及端侧部署的全流程，并已落地多个实践案例，为智能汽车大模型的发展进一步筑牢了算力根基。

黄梓亮｜华为技术有限公司智驾解决方案专家

智能驾驶业务趋势

在技术快速发展的推动下，新能源智能驾驶的渗透率预计将攀升至95%，从而引发了一系列深刻的新变化。模型参数已成功演进至B级，训练数据规模相应提升至PB级/天，采集模式与采集规模均发生了显著变化，训练节奏也不断加快，逐步演进至天级。头部厂商的智驾效果保持着领先地位，华为乾崑智驾ADS与特斯拉FSD在算力方面进行了巨额投资，从而引领着整个技术的演进。

图源:演讲嘉宾素材

从智能驾驶技术的演进阶段与车企的自研战略来看，行业目前仍主要停留在L2+至L2.9的水平。在未来一到五年内，随着技术成熟度与法规完善度的提升，业界普遍预期将实现对L3级别自动驾驶的突破；而在五到十年的时间尺度上，L4级别的有条件自动驾驶则有望逐步实现；至于完全自动驾驶的L5级别，其真正意义上的大规模落地预计仍需二十年左右的周期。在这一漫长而复杂的演进过程中，对算力基础设施的持续投入以及智驾团队的专业能力建设，不仅是推动技术跃迁的核心驱动力，也已成为车企在制定与实施自研战略时所需权衡的关键考量。

智能驾驶的持续演进，推动了在算力规模、网络性能以及训练与推理效率等关键维度上的全面提升。这一演进伴随着技术路线的根本性转变，即从端到端（E2E）模型迈向以视觉-语言-动作（VLA）为核心的世界模型。E2E路线以模仿学习为主要方法，目前其训练集群规模已达到万卡级别，所处理的数据量达到百PB（PB）量级；在万卡级AI调度能力的支持下，单个任务的最大可扩展至6000卡。相比之下，VLA路线以对场景与规则的理解能力为核心，其训练集群规模已扩展至十万卡量级，所需处理的数据量级跃升至EB（EB）；然而，如何有效调度十万卡规模的算力资源，仍然是一个极具挑战性的技术课题。

在智驾数据处理的完整流程中，高效的数据挖掘、标注与验证工作，构成了整个智能驾驶数据闭环体系得以有效运转的基石。目前，这一领域主要面临三大核心挑战。首先是数据挖掘。海量驾驶数据的理解与生成，很大程度上依赖于多模态大模型，而这一过程反过来对高性能、稳定且可靠的AI算力平台提出了更为严苛的要求。其次是数据标注。传统依赖于手工操作的数据标注方式，不仅效率低下，其准确性与一致性也难以得到有效保障，已无法满足端到端智驾算法对高质量数据的需求。最后是路测验证。实地路测受限于现实条件，难以系统性地覆盖各类危险场景，部分极端工况的测试需要依赖具备高性能的仿真场景生成能力，以此来有效提升整体的测试覆盖率与可靠性。

智驾大算力集群的建设与使用过程，会对架构效率、调度能力以及生态系统等方面提出更为严格的要求。集群规模从最初的百卡、千卡逐步扩展至万卡级别，这使得训练效率得到了显著提升，同时模型参数也从百万级规模发展到了十亿级甚至千亿级。在多元算力方面，为了应对不同架构的NPU与GPU，需要实施统一的调度策略，从而提高整体效能。此外，在开源开放的层面上，新模型和新算子必须被更快速地进行适配工作，以便能够充分发挥其性能。

华为AI能力

昇腾AI将自身定位为聚焦于构建算力底座的平台，致力于打造开放且领先的AI基础软硬件体系。与业界其他厂商相比，昇腾AI的优势主要体现在以下几个方面：首先，在支持策略上，它友好地兼容了业界主流的开源社区与项目。其次，在工具链建设上，它构筑了一套与昇腾架构高度亲和的自研应用工具链，用以实现应用层面的使能，并且这套工具链已实现全量开源。具体而言，其CANN架构直接对标CUDA架构，并自去年起便已全面对外开放。这种开放举措旨在助力客户与合作伙伴能够更充分地释放底层硬件的深层能力。华为在战略上始终坚持通过硬件实现商业价值，而开发软件的核心目的，是帮助用户更好地运用和发挥硬件的性能。为了实现这一目标，昇腾提供了形态丰富的产品，并保持持续的创新与演进，从而为车企稳固地构筑起坚实的算力底座。

在算力集群层面，华为拥有Atlas 900 A3服务器，并在此基础上构建了更大规模的Atlas SuperCloud超节点解决方案。在训练与推理一体化服务器领域，Atlas 800I A3与Atlas 800 A2两款产品能够全面支持并承载大规模模型训练以及多模态推理任务。至于视觉处理场景，则提供了Atlas 300I A2专用推理卡，其所搭载的算力在各应用领域中均保持着领先水平。

图源:演讲嘉宾素材

从芯片到系统再到集群，华为对整个计算架构进行了重新定义，以此打造系统级的竞争优势，并得以实现算力规模的领先。在芯片架构层面，其通过增大芯片面积来提升计算能力，并借助堆叠技术来增强整体能力，从而在算力性能与功能集成方面取得了优势。在系统架构层面，该方案摆脱了传统上以CPU作为唯一核心的架构模式，并由此改变了以往主从式的计算结构。而在集群创新层面，则是把整个数据中心当作一台统一的计算机来使用，同时集成了华为在网络、计算、存储以及液冷等领域的硬件工程能力，最终实现了大规模算力在实际应用中的领先落地。

昇腾芯片以华为自主研发的神经网络处理器为基础，通过每年一次的迭代节奏，确保与智能驾驶的性能要求及应用场景保持同步匹配。计划于2026年发布的950系列芯片，将具备支持低精度数据格式进行训练与推理的能力，从而有助于提升产品的规模化应用水平。同时，该芯片支持SIMD与SIMT相结合的计算模式，能够有效提高互联带宽。后续，2027年将发布960系列，2028年则计划推出970系列，旨在持续提升算力、内存带宽及内存容量，从而不断优化训练与推理的整体性能。

昇腾NPU始终保持架构层面的领先地位，其架构已成功从“矩阵+向量”演进至“矩阵+向量+线程+CCU”的完整形态，以便匹配人工智能特征的快速发展，从而为智能驾驶提供了更优的性能。智能驾驶大模型的训练过程涉及复杂的多维并行技术，昇腾平台能够为这类训练任务提供超大规模的互联带宽，从而有效降低分布式训练中的通信开销。

强化学习涉及了多个模型与多个阶段，因此只有借助超节点所提供的大规模算力，才能满足其对带宽与显存的要求。相比于传统节点，新超节点在训推吞吐效率上能够提升至传统集群的3倍以上，同时实现了成本的节约达到50%。

智能汽车AI解决方案

从基础设施层到算力能力层，再从L0基础大模型到L1智驾大模型，最终延伸至智驾研发工具链，华为成功地在核心业务流程中，对智驾业务场景进行了全面的赋能。它通过提供工具SDK，为开发与迁移工作提供了易用的工具支持。同时，借助盘古模型的能力加持以及2012专家库的支持，使得在诸如场景理解、多模态检索、预标注、仿真场景生成以及数据处理等关键环节中，其效率均得到了显著提升，达到了60%。

在计算能力层面，华为依托全自研且自主可控的昇腾AI芯片，为自动驾驶提供了强大的算力基础。通过深度融合华为ICT数字中心的能力进行赋能，该方案实现了功能的可扩展性与对应用场景的快速适配。其覆盖范围不仅包括智能驾驶，还延伸至具身智能以及重工等多个领域，从而有效地打破了数据管理与AI资源调配之间原有的界限。

在智能驾驶的模型训练、数据标注、隐私脱敏以及云端与端侧协同推理的完整业务流程中，昇腾AI算力平台能够提供全面支持。该平台不仅能够处理多模态理解推理以及传统的模型推理任务，还具备了充分适配VLA大模型因参数量持续增长所带来的算力需求的能力，同时支持多模态内容的生成式推理。特别是在云端推理层面，它能够实现多模态内容的理解与生成，所支持的模型参数规模可以达到千亿级别。

图源:演讲嘉宾素材

在数据处理方面，昇腾推理为对主流大模型提供了支持，并在云助端的数据挖掘与标注任务中实现了开箱即用的功能。数据标签提取、数据标注以及云助端等多场景，均依赖于MindIE等主流推理引擎，从而做到了开箱即用。同时，已经适配了诸如Qwen与Intern等30家多模态理解与生成模型，其性能可以达到50至60，这一水平高于友商。

在模型训练层面，我们成功推出了昇腾智驾开发套件Driving SDK，并诚邀各方伙伴共同建设创新生态。该套件以昇腾NPU为基础进行构建，完整覆盖了超过50种主流大模型与超过50种主流算子，能够为开发者提供极致简易的应用体验。Driving SDK覆盖了主流的感知规控以及端到端算法，其典型模型性能在业界达到持平甚至更优的水平。此外，该套件还全面支持了主流多模态大模型，从而能够为智能驾驶的VLA与数据闭环等场景提供训练加速。在统一部署方面，该套件能够借助格式转换功能，实现对不同端侧与车端软硬件的兼容，并成功支持了从昇腾到昇腾、昇腾到地平线、昇腾到黑芝麻以及昇腾到英伟达等多种部署方案。

实践案例

基于大规模集群来实现对千亿级参数、为期40天的长时间稳定训练的支持，其故障恢复能力表现为：95%的故障可在10分钟内得到快速恢复。借助于全栈故障模式库，系统对95%的故障实现了分钟级的快速感知。在采用三级故障快速恢复策略的前提下，70%的场景能够进行原地无感恢复，并支持了无感的断点续训能力，从而得以持续地提升整体运行效率。

我们已成功构建了涵盖数据服务、标注服务以及仿真服务的完整技术体系。这些服务全面覆盖了多模态数据融合、海量数据处理等关键环节，并借助大模型技术实现了高效的数据标注与三维仿真重建。在云助端的应用场景下，针对潮汐车道理解、标识牌识别以及异形车位识别等任务，系统表现出了灵活的时延特性：对于时延敏感的场景，处理时间能够实现小于1秒的响应；对于时延不敏感的场景，则可以在1到5秒内完成处理，实测平均时延约为1.5秒。此外，我们借助这一整套能力，助力乾崑智驾构建了完整的数据闭环系统，从而提供了业界领先的智能驾驶体验。

今年4月发布的ADS 5运用了WEWA2.0架构，该架构作为面向自动驾驶AI智能体的世界引擎进行构建，其核心由世界模型与行为模型所组成。云端世界引擎通过引入多智能体博弈强化学习技术，将博弈策略从仅针对单车的场景演进至能够应对多车交互的群体博弈，这一架构优化与算法改进使得学习效率提升了10倍。车端世界行为模型则通过引入安全风险场，首创了防御性驾驶模式，该模式的引入使得碰撞风险降低了50%，这一提升主要得益于对潜在风险的前置识别与干预。

华为构建了规模达到60 EFlops的集群算力，所积累的训练数据规模已达到10亿公里，模型迭代的周期可以被压缩至仅4天。依托超过10万卡组成的超大规模集群，以及全栈的人工智能技术、模型与算子库，其稳定的架构为市面上170万辆搭载智能驾驶功能的车辆持续稳定运行提供了支撑。同时协助外部客户构建高性能、高可用的智能驾驶多元计算平台。

为满足客户所提出的高达2000 PFLOPS的国产化算力储备需求，以及严苛的集群训练稳定性要求，我们得以将平均故障恢复时间（MTTR）控制在每月一次且小于10分钟。针对业界普遍存在的定位与数据分析难题，我们依托智驾整体解决方案，通过交付A3超节点与SFS Turbo数据存储等产品组合，最终保障了客户对VLA及行泊一体模型的训练任务得以顺利完成。

智能驾驶技术的持续演进，正推动着一系列深刻的变革。在新能源汽车领域，智能驾驶的渗透率预计将攀升至95%，这带来了一系列新的变化：模型参数规模已成功扩展到B级（十亿级），训练数据规模也相应增长到了PB（拍字节）/天的量级，数据的采集模式与采集规模都经历了显著变革，进而使得训练节奏不断加快，逐步实现了天级的更新频率。在此背景下，头部厂商的智驾效果保持着领先地位，华为乾崑智驾ADS与特斯拉FSD都投入了巨额的算力资源，从而在技术演进的过程中起到了引领作用。

来源：华为：构筑智能汽车大模型的算力根基-资讯中国 | 资讯中国

声明：本文来自资讯中国，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。