模型瘦身是什么?万亿参数大模型的瘦身战正决定具身智能能否真正落地
前言
人形机器人在实验室环境中能够流畅抓取苹果,但当其进入工厂产线执行连续分拣任务时,反应便出现卡顿,具体表现为抓取延迟和轨迹漂移。这一问题的根源并不在于云端大脑不够聪明,而在于那个通常拥有万亿参数的超级大脑,由于体积过大,无法装进机器人狭窄的躯体里。VLA模型的部署长期以来依赖外部桌面显卡,这种做法不仅显著增加了成本,还会导致设备端侧出现推理延迟。
根据业界预测,到2026年,中国具身智能的市场规模有望达到万亿元级别。当前,整个行业正经历从技术验证阶段向规模化商业应用的转型过渡,相应的算力支撑体系也从过去的单纯算力堆叠模式,转向“云—边—端”协同运作的新范式。在此背景下,模型的轻量化——即通过减少参数规模来承载同等水平的智能——正成为决定整个产业能否实现真正落地的关键命题。因此,这场“瘦身竞赛”的成败,将直接决定具身智能能否最终走出实验室环境,进入工厂车间乃至普通家庭。
01
为什么必须进行轻量化?——端侧部署面临的三大核心矛盾
模型轻量化,其核心要义在于以更为精简的参数规模来承载同等水平的智能表现。在具身智能这一特定领域当中,端侧部署之所以会演变为制约产业发展的关键瓶颈,主要源自于三道难以回避的刚性约束条件。
1.1 功耗不可能
机器人受限于其机身内部极为有限的空间,这对电池容量与散热设计构成了严峻挑战。以NVIDIA Jetson Thor为例,其运行功率范围设定在40瓦至130瓦之间,然而业界普遍认为,为保障具身智能应用的高效稳定部署,端侧芯片的峰值功耗应控制在100瓦以内。鉴于云端服务器所使用的单颗GPU功耗往往超过300瓦,试图将这类大型云端模型直接迁移到功耗受限的端侧设备,在物理层面便不具备可行性。此时,现代轻量级Transformer模型的压缩技术提供了关键路径:通过对模型进行压缩,使其能够在功耗极低的设备上完成部署,此举不仅可以显著缩减模型体积、降低推理延迟,还能在很大程度上维持其原有的精度水平。这正揭示了在严格的功耗约束下,端侧部署必须借助轻量化技术来打破性能与能耗之间固有平衡的核心逻辑。
1.2 内存不可能

“算力-内存剪刀差”正在逐步演变为端侧人工智能发展所面临的核心瓶颈。当前,模型的参数规模已实现数百倍的增长,但端侧设备的内存带宽与容量并未能与之实现同步的提升。端侧推理任务不仅需要存储完整的模型权重,同时还需为KV Cache等中间计算状态分配内存空间,这导致对内存系统的综合压力急剧叠加。目前,以NVIDIA Jetson Thor为例,其配备了128GB统一内存,使得在边缘设备上运行超过千亿参数的大规模模型得以实现——这本身已是一项具有重大意义的工程突破。
1.3 数据不可能

云端大模型能够借助海量数据,通过增加参数规模的方式来“大力出奇迹”,从而提升模型性能。然而,端侧模型不具备这样的条件。在功耗与内存均受到严格约束的场景下,端侧模型的训练过程会更加依赖于高质量、经过精心筛选的数据,其中每一份数据对模型最终能力的影响都更为直接。
1.4 突破正在发生
尽管面临多重约束条件,技术突破也同步得以实现。2026年4月,智元机器人研发团队借助于算法与工程协同优化的一站式解决方案,成功地将Physical Intelligence的π0.5模型在Jetson Thor芯片与精灵G2机械臂上进行了全链路部署,使得推理帧率从1.4Hz提升至22.1Hz,从而实现了性能超过15倍的提升,并在精灵G2机器人上完成了实际验证。此次优化涵盖了全栈推理系统搭建、算法逻辑重构、编译优化以及低精度量化等多个技术层面,该方案成功地摆脱了机器人以往依赖外挂桌面显卡进行计算的模式,并在Jetson Thor芯片上实现了模型的完整端侧推理功能。
02
靠什么实现瘦身:四大技术路径的组合策略
模型轻量化并非单一技术能够独立完成的任务,而是一项需要多种路径协同推进的系统工程。当前业界主流的“瘦身”手段主要包含四种:量化、知识蒸馏、剪枝以及神经架构搜索。这些技术各有侧重,它们共同构成了模型轻量化技术栈中的核心工具集——其中一部分旨在通过降低数值精度来换取更高的计算速度,另一部分则模拟大模型向小模型的知识传递过程,还有的专注于识别并删除模型中的冗余参数或结构,而剩余的方法则致力于从头开始自动探索最优的神经网络设计。因此,最优的轻量化方案,通常是对这四种技术进行针对性评估后所形成的组合策略。
量化,指的是借助于特定的算法手段,将高精度图像数据进行压缩处理,从而转换成低精度的缩略图表示。
一张4K超高清照片具备了丰富的细节,但其文件体积非常庞大。如果将其压缩为720P格式,虽然会损失部分细节,文件大小却会大幅减小,传输和打开的速度也随之显著加快。量化技术所遵循的正是这个原理,即把模型参数从32位浮点数(FP32)转换为INT8甚至INT4等低精度整数进行表示。经过这样的处理之后,模型体积可以缩小至原来的1/4左右,推理速度提升数倍,同时精度损失通常被控制在可接受的范围之内。
两种操作方式:
简称为PTQ的训练后量化,其操作逻辑类似于在模型训练完成后才对准备好的照片进行批量压缩,并将结果作为输入提供给模型——这种方法操作流程简洁,往往可以在一天内完成,因此特别适合用于快速验证场景。
量化感知训练(Quantization-Aware Training,简称QAT)则是在模型的训练过程中,便同步对压缩后的低精度效果进行"预演"。通过这种方式,模型能够在训练阶段就学会适应低精度的参数表示,从而表现出更高的精度,因此更适合应用于正式的商用部署场景。
不过,当量化精度降低至4比特以下时,模型在处理大规模复杂任务时的精度表现可能会出现显著下降的情况。这一技术难题目前正处于积极攻克阶段,但尚未实现完全解决。
知识蒸馏:由大模型充当"教师"角色,指导小模型进行学习
一位大学教授(代表大模型)会将其毕生积累的专业知识与洞察力,系统性地提炼为一套通俗易懂、结构清晰的讲义材料,并传授给目标学习者,例如高中生(代表小模型)。目标学习者无需完全掌握教授所具备的理论深度,却能够快速掌握核心知识并有效解决实际问题,这正是知识蒸馏技术的核心目标。目前,Shallow-π蒸馏框架能够将视觉-语言-动作(VLA)模型的层数从18层精简压缩至6层,使得其在Jetson芯片上的推理速度实现成倍提升,同时,模型在执行抓取任务时的成功率仅下降了不到1%。
研究者也在持续尝试借助蒸馏技术手段,将混合专家模型(MoE)这类复杂架构转化为普通的稠密模型结构,以此进一步实现模型体积的压缩。蒸馏与量化两种技术协同运作时,所产生的压缩效果往往更为显著。

剪枝技术:类似于修剪树枝的做法,将模型中那些不重要的参数予以删除。
对于一棵大树而言,那些贡献有限的细枝末节,实际上并不提供多少荫蔽功能。对这些枝条进行修剪,可以使树木整体更加通风透气、生长结构也更显强壮。神经网络中的剪枝技术在逻辑上是高度相似的,其本质在于识别并剔除那些对最终输出结果影响程度较低的参数或神经元单元。
两种剪法:
非结构化剪枝是指对模型中的单个参数进行随机移除,剔除那些对输出结果影响程度较低的参数。该方法能够获得较高的压缩率,然而剪枝后模型的结构会呈现出稀疏且不规则的分布状态。由于普通硬件并不擅长对这类稀疏计算进行加速处理,因此在实际部署过程中,需要依赖特定的计算库来提供支持。
结构化剪枝则采取了整组或整层地去除参数的方式。这种方法对硬件较为友好,但由于其去除幅度较大,往往会对模型精度造成不可逆的损伤,且在具体实施时,需要工程师对每一层需要剪去的参数量进行大量的人工调试。
在实际部署场景中,剪枝技术通常并非独立应用,而是往往需要与量化、蒸馏等技术协同运用,进而构建起一种遵循“先剪枝、后蒸馏、再量化”顺序的多层次模型压缩流水线,以实现多层次的模型压缩效果。
神经架构搜索:引导AI自主设计"生而轻量"的模型
与前三种旨在对既有模型进行“改造”——如同购入大码成衣后实施裁剪——的技术路径存在本质区别,神经架构搜索(NAS)致力于在模型构建的初始阶段,便借助人工智能算法来自主设计一件真正合身的小码服装,即直接针对目标硬件平台(例如移动设备芯片)的具体特性,定制出最优的网络结构。传统的NAS方法主要依据浮点运算次数(FLOPs)这一指标来评估模型效率,但这一指标并不能完全反映模型在真实硬件上的实际运行速度。现代NAS方案则引入了更为直接的延迟预测器,通过在目标芯片上实测或建模来评估具体的推理耗时,从而能够寻找并锁定真正意义上的性能最优解。
搜索空间的设计在很大程度上决定了最终效果的好坏,这会导致开发成本高昂且周期漫长,因此更适合由芯片厂商进行专用设计,例如高通与瑞芯微的NPU,而对于普通开发者来说,使用起来的门槛相对较高。
那么,上述四种技术路径应当如何实现协同运作呢?单一技术手段往往难以同时满足存储空间、推理延迟以及模型精度这三方面的多重约束条件。在产业界的实践过程中,通行的做法是:首先运用剪枝技术来缩减模型的整体规模,随后借助蒸馏技术来维持模型的核心能力,最后通过量化技术来加速推理运算的执行效率。这套多技术手段相互配合的方案,才是真正意义上的轻量化系统工程。
03
产业链中的推动力量源自何处?——芯片厂商在软硬件融合领域的协同竞争
产业生态体系内的核心推动力量主要源自芯片设计厂商。鉴于算法端在模型轻量化层面所面临的共同挑战,诸如高通与NVIDIA等行业巨头已将竞争焦点转向软硬件协同优化。高通为机器人软件生态系统提供了涵盖操作系统与算法工具在内的相应技术支持,其目标在于降低人形机器人厂商将软件平台迁移至搭载骁龙处理器的机器人产品上的技术门槛。另一方面,NVIDIA则将其云端的开发工具与训练能力进行系统性整合,旨在为从边缘到云端的各类计算场景提供无缝衔接的开发环境。因此,这实质上是一场围绕软件生态系统完整性的竞争,其最终目标是通过降低模型部署的实际操作难度,从而显著扩大硬件产品的市场应用规模。
芯片厂商的角色已发生了转变,从单纯地“售卖算力”,变为提供涵盖硬件、模型乃至工具链的全栈解决方案。尽管各家厂商选择的实施路径各不相同,但这一变化共同指向了同一个明确的趋势,即竞争的焦点正日益集中于构建“软硬件深度一体化”以及“端侧与云端紧密协同”的产业生态系统。
高通在技术架构层面实现了基于单芯片的异构计算模式,成功地将机器人控制中所需的“大脑”高级决策功能与“小脑”实时运动控制功能集成在同一块芯片之上。
2026年6月,高通正式发布了简称为RRD的跃龙IQ10机器人参考设计,该方案以量产级集成传感器AI系统为设计目标,把异构计算、AI加速、摄像头与传感器接口、运动控制、网络连接以及分层式机器人软件栈系统性地整合为一套统一的参考设计方案。

该平台在人工智能计算方面,最高可提供高达700 TOPS的算力支持。在硬件层面,它通过集成包含18核的高通Oryon CPU、以及多核NPU与GPU在内的异构计算架构,从而无需借助任何外接加速器,便能在设备端侧自主完成从环境感知到任务规划的复杂推理任务。在软件工具层面,该平台配套提供了涵盖MLOps与DevOps在内的全套工具链,全面支持人工智能模型从开发、部署到验证以及完整生命周期管理的全流程工作。
高通在CES 2026上成功发布了跃龙IQ10系列处理器,并将工业具身AI机器人视为推动实体AI技术走向规模化应用的核心实践平台。该处理器可以支持人形机器人、自主移动机器人以及服务型机器人等多种形态的终端。其独特优势在于实现了通信与计算能力的深度融合,依赖于5G、Wi-Fi等无线通信能力,这使得跃龙IQ10在那些需要云端与边缘端协同工作的机器人应用场景中,天然占据了有利位置。
英伟达构建了涵盖从云端模型训练到边缘设备部署的完整工具链,协助开发者将云端训练的大规模模型成功迁移至Jetson Thor芯片进行推理部署,这一过程显著降低了技术门槛。
2026年6月,在GTC台北活动期间,英伟达CEO黄仁勋正式发布了NVIDIA Isaac GR00T人形机器人参考平台,该平台将宇树H2 Plus人形机器人以及Sharpa Wave触觉灵巧手整合至一个统一的集成参考设计之中。

该平台搭载了NVIDIA Jetson AGX Thor T5000板载计算模块,其中集成了Blackwell GPU,其AI计算性能可达到2,070 FP4 TFLOPS,并配备了14核Arm CPU与128GB统一内存,整体功率范围为40W至130W。黄仁勋指出,该平台集成了全新的Thor硬件,以及配套的软件栈、数据生成工具链、数据仿真工具链与运行时环境,并将这些组件统合于一个面向广泛应用场景的机器人硬件载体之上。
从DGX云端训练平台、Omniverse仿真环境到Jetson端侧部署方案,英伟达构建了完整的全链路工具生态体系。凭借128GB统一内存所提供的支撑能力,该芯片能够支持在边缘端直接运行参数规模超过100B的超大规模模型,黄仁勋据此做出判断,"物理AI"有望发展成为一个价值达数万亿美元级别的庞大市场。
地瓜机器人(隶属于地平线阵营)成功实现了将成熟的自动驾驶算法能力系统性地迁移至具身智能领域,其核心突破在于,在单颗芯片上,完成了负责高层决策与感知的“大脑”功能,与负责实时运动控制的“小脑”功能的闭环集成。
脱胎于地平线机器人体系的地瓜机器人,自2024年独立运营以来,以极高的效率系统性地完成了从前期技术积累到规模化商业落地的跨越。其核心计算平台S600搭载了拥有560 TOPS算力的异构计算架构,并创新性地运用了“大小脑拆分”的架构设计:其中,18核CPU+BPU组合专门负责处理视觉语言决策等高级交互所需的复杂大模型推理,而6核R52+MCU则专司实时运动控制任务。这一设计有效避免了不同计算任务间的资源争抢,从而实现了从底层“小脑”精确控制到上层“大脑”智能决策的完整闭环。性能方面,S600平台支持大模型在端侧进行原生部署,在适配Pi0、Qwen2.5-VL-7B等模型时,其推理性能可达主流平台的2倍以上。
地瓜机器人与地平线之间始终维持着技术同源性与战略协同性,二者共同致力于打造“具身智能大脑基座”。从2025年的业绩数据中,能够清晰地看到其发展节奏:在出货量方面,实现了同比180%的显著增长;在客户数量方面,达到了同比200%的增长;在全球开发者规模上,数量已突破10万,实现了同比翻倍;在产业化支撑方面,已累计助力超过百款机器人产品成功落地。在产品矩阵的布局上,地瓜机器人搭建了覆盖5至560 TOPS多层级算力的完整产品序列,从而能够支撑人形机器人、四足机器狗、服务机器人以及扫地机器人等百余种不同形态的机器人产品实现技术落地。
瑞芯微:以性价比作为核心驱动力的异构计算策略,使其得以在国产芯片领域中扮演着“隐形冠军”的角色。
瑞芯微在端侧AI市场采取了以性价比为核心驱动力的差异化竞争策略。其现有芯片型号RK3588凭借这一策略已在机器人领域确立了显著的市场占有率,并且能够与国内主流机器人制造商展开深度合作,共同开发出多种形态的终端产品。

下一代旗舰级SoC芯片RK3668与RK3688的研发进程正在加速推进。瑞芯微针对下一代旗舰芯片RK3688,采用了更为先进的制程工艺,这被公司视作卡位端侧AI爆发风口的关键战略布局。瑞芯微的定位是“小而美”,其策略在于不追求单点算力的最高值,而是以最低的功耗和成本来满足端侧市场上的主流需求。
从横向比较来看,未来的端侧AI竞争已经不再局限于单点算力的比拼,而会演变为芯片、模型与工具链所构成的垂直生态系统之间的全面较量。
04

未来展望:小模型、大智慧,正在发生
当我们站在2026年这个时间节点回顾过往,这场被业界称为“瘦身战”的技术演进历程时,一个清晰可辨的发展趋势正在逐渐浮现:AI竞赛的范式正悄然发生转变:其核心关注点已经从对“大模型”的单纯崇拜,演进为对“效率革命”的深度追求。
产业发展的重心正经历从“技术验证期”迈向“规模化商业应用期”的过渡。相应地,算力体系的构建逻辑也发生了深刻转变,其核心已不再是早期对单一算力的粗放式提升,而是转向了由“云—边—端”三层架构所构成的精密协同计算范式。具身智能产业的量产元年正在到来,当前产业界已形成一项广泛共识:智能本体设备必须在极为严苛的功耗与体积约束条件下,实现多模态感知信息的深度融合与高实时性的闭环控制。因此,算力竞争的焦点已经从对峰值性能的盲目追求,成功转向了对算力效率的优先考量与对计算架构的精巧设计。一个标志性的事实充分印证了这一趋势:经过深度优化的7B参数规模模型,在特定任务上的表现已经接近甚至超越了早期规模达170B参数的大型模型,这揭示了轻量化、高效率模型所具备的巨大潜力。
近期,面壁智能提出了大模型密度定律。该定律正被业界广泛观察与验证:在智能水平保持同等的前提下,模型的参数规模每隔约100天便会减半。这一趋势的规模化落地,正由几条关键的技术路径所支撑——混合专家模型(MoE)架构使得拥有数十亿总参数的模型在每一次推理过程中,仅需激活其中的一小部分参数量;稀疏注意力机制通过将Transformer架构的计算复杂度从O(n²)降低到O(n log n)来提升效率;而知识蒸馏技术的产业化则使得小模型能够学习并掌握大模型超过90%的核心知识。展望未来,典型的人工智能协作架构将呈现为:大型模型将主要承担复杂规划与决策的任务,而小型模型则作为子代理,负责快速执行具体的子任务。

产业的演进路线正依据其内在的逻辑渐进,从专用场景逐步迈向通用能力。这一过程率先于工业制造、仓储物流等具备高度确定性的场景中完成应用闭环,其“沿途下蛋”的策略正持续推动着具身智能从理论概念迈向能够创造实际价值的生产力形态。伴随大模型密度定律的持续发挥作用,万亿参数的大型模型依然将作为云端的核心中枢;然而,真正能够促使机器人稳定进入工厂车间、商业场所以及家庭环境的,将是那些具备“小而精”特性的端侧模型。
来源:模型瘦身是什么?万亿参数大模型的“瘦身战”,正在决定具身智能的真正落地 | 具身研习社