技术突破推动成本下降 多款国产大模型宣布降价
近期,包括DeepSeek、小米、腾讯云在内的国产大模型头部运营主体,接连宣布对应用程序编程接口(API)调用费用实施下调,使得多款主流模型的降价幅度突破了90%。
一位行业分析师向《证券日报》记者分析指出,大模型API价格出现的连续下调现象,本质上是技术红利得以释放与市场竞争博弈共同作用的结果。一方面,底层模型架构的持续迭代工作与推理系统效能的深度挖掘工作,正在推动单位Token的计算成本实现了阶梯式的下降过程,为整个价格体系的重塑提供了底层支撑条件。另一方面,白热化的市场竞争态势进一步加速了这一降价进程,使得实施降价策略成为厂商在激烈竞争中抢占市场身位的现实选择。
本轮国产大模型降价活动集中于5月下旬至6月中旬,其降价力度呈现出逐层加码的态势,从而接连打破了全球商用大模型API底价纪录。
5月22日,DeepSeek率先启动了价格调整工作,其旗下旗舰级通用大模型V4-Pro开启了永久性的价格下调,整体降价幅度达到了75%;依赖于缓存加速技术的运用,该模型在输入侧的缓存命中单价下跌至0.025元/百万词元,使其成为了在全球公开报价中价格最低的顶级能力大模型。
仅仅5天之后,小米紧随其后地完成了价格调整工作,其旗下MiMo-V2.5全系列API接口实施了永久性的资费下调,部分细分调用场景的降价幅度达到了逼近99%的程度,从而成为本轮降价潮中单次降幅最高的厂商。
头部公有云厂商也相继展开了跟进工作。6月2日,腾讯云对外发布了服务调价公告,明确表示自6月3日起,平台内所上线的DeepSeek-V4全系列模型将同步实施调用价格的下调,其中最高降幅可以达到97.5%。与此同时,腾讯云方面还强调,本次调整仅对计费标准进行了修改,模型推理速度、上下文窗口以及输出准确率等核心服务参数均不做任何改动,因此用户的使用体验不会受到影响。
腾讯云随后于6月12日推出了第二轮差异化调价,覆盖了自研及第三方两类商用模型。其中首先实施价格调整的是自研多语言翻译模型 Hy-MT2-Pro,其输入词元计费下调了66.67%,输出词元计费下调了55.56%;而对于第三方入驻模型 MiniMax-M3,则设定了延迟调价的时间节点,计划于6月15日统一下调推理输入、推理输出以及缓存命中三项费用,各项降幅均为50%。
值得关注的是,本轮降价现象完全背离了上游算力市场的整体走势。在2026年上半年,AI硬件供应链的供需矛盾持续激化,其中核心存储部件高带宽内存(HBM)的市场价值在半年内实现了超过500%的涨幅;英伟达高端图形处理器(GPU)现货长期处于供不应求的状态;海外亚马逊云、微软Azure以及国内少量中小型云厂商早已启动了价格上涨,部分海外厂商API的最高涨幅甚至达到了463%。
国产大模型厂商在应用程序编程接口定价策略上采取的相反举措,使得两者之间的竞争策略差异得以凸显。
广州艾媒数聚信息咨询股份有限公司的CEO张毅向《证券日报》记者分析指出,国内大模型行业已经走完了前期通过高额投入进行试错的技术验证阶段,全面迈入了以商业化落地为核心的攻坚阶段。针对中小开发者以及垂直领域的小微企业而言,此轮大规模的降价活动对AI创业活动的试错成本产生了直接的降低效应。在总预算保持不变的前提下,团队能够调用的模型词元总量便有望实现数倍乃至近百倍的提升,这使得那些原本因资金限制而难以落地的轻量化AI工具与行业定制插件,现在具备了进行商业化测试的现实条件,从而显著拓宽了小众创新团队的生存与发展空间。
多重因素形成支撑
排除市场竞争因素后,业内人士普遍认为,多级存储缓存优化、稀疏算力架构迭代以及国产算力适配这三大关键技术突破,为厂商提供了能够实施逆势降价策略的核心支撑,同时使得上游硬件涨价所带来的成本压力通过对推理层技术的优化而被有效对冲。
小米官方披露了MiMo模型的降本技术路径:研发团队基于SGLang(结构化生成语言)框架来开展配套HiCache(高速缓存)方案的部署工作,实现了对滑动窗口注意力(SWA)算法的完整兼容。借助对词元缓存调度逻辑的重构,成功将KV(键值)缓存在GPU显存、CPU(中央处理器)内存以及固态硬盘这三级存储架构之间的数据迁移量压缩至原先的1/7,同时将系统可长效缓存的词元容量提升了5倍。除此之外,团队还对混合专家模型的并行调度逻辑进行了优化,并新增了输入文本长度分桶匹配策略,解决了超长文本并发调用时集群算力浪费的问题,随着集群整体吞吐效率的提升,单词元的平均推理成本也得以相应下降。
DeepSeek主要通过模型原生架构优化与算力国产化两条路径来实现降本目标。在架构设计方面,研发团队自主研发了轻量化稀疏注意力机制,并搭配了动态混合专家结构进行协同优化。这套架构使得V4系列模型在处理十万级至百万级超长上下文任务时,算力资源消耗量仅为前代版本的27%,同时KV缓存显存占用也大幅压缩至原先的10%。在算力适配方面,该模型针对昇腾系列国产算力芯片开展了深度底层适配工作,从而摆脱了对海外高端GPU的单一依赖。这一策略一方面降低了硬件采购与长期租赁成本,另一方面也补齐了国产算力生态的商用落地案例,最终实现技术与成本的双向收益。
张毅预测,大模型API的定价策略在未来将呈现出明显的两极分化态势。一方面,由于底层技术的持续迭代以及部署规模效应的显现,基础推理服务的价格将不断下探,其定价逻辑会逐步向公用事业的普惠模式靠拢。与此形成鲜明对比的是,高端、定制化的专属服务将因其独特性与附加价值而继续维持价格溢价。
与此同时,行业竞争的核心维度正发生转移,焦点正从对单纯算力资源的堆砌,转向对系统效率的深度优化以及对应用生态的持续构建。张毅进一步指出,因此,那些既掌握了核心的自主架构创新能力,又能有效适配国产算力生态的企业,将更有可能在这场新的竞赛中脱颖而出;相反,缺乏坚实技术护城河的厂商,则将不可避免地面临市场出清的压力。
来源:技术突破驱动成本下降 多款国产大模型宣布降价 | 证券时报网