从“卖卡”到“卖Token”:AI算力市场重构与国产芯片的窗口期

2026年05月29日 11:07
本文共计4540个字,预计阅读时长16分钟。
来源/财联社 责编/爱力方

《科创板日报》5月29日所发布的讯息(记者 黄心怡)表明,从生成式人工智能技术演进到智能体的全面爆发,正在AI底层基础设施领域催生一场深刻的结构性变革。这场变革的核心,是价值载体从传统GPU硬件资源,转向了一种可量化、可交易的新型智能“货币”——Token。随着Token调用量的指数级增长,一个以“Token经济学”为核心理论框架的新时代正逐步拉开序幕。在此背景下,中国的算力市场与国产芯片产业,正共同站在这一关键的历史转折点上,迎接前所未有的发展机遇与严峻挑战。

依据国家数据局发布的相关数据,在2024年初,我国的日均Token调用量约为1000亿;至2025年底,该数值已跃升至100万亿;而到了2026年3月,这一规模更是突破了140万亿,意味着在短短两年时间内实现了超过1000倍的增长。

根据《科创板日报》于5月29日发布的讯息指出,随着技术从生成式人工智能向智能体全面演进,这正在人工智能的底层基础设施领域引发一场意义深远的结构性变革。这场变革的核心在于,其价值载体正从传统的GPU硬件资源,向一种可量化、可交易的新型智能“货币”——Token——进行转移。伴随着Token调用量的指数级攀升,一个以“Token经济学”为核心理论框架的全新时代正在开启。在此趋势下,中国的算力市场与国产芯片产业,共同站在了这一关键的历史转折点上,面临着前所未有的发展契机与挑战。

类似的发展趋势并非个案。国内AI基础设施服务商硅基流动平台所记录的Token生成量、开发者活跃度以及企业客户数量,均在今年呈现出加速增长的态势,延续了此前爆发式的发展轨迹。截至目前,硅基流动旗下公有云及私有云MaaS平台每日生成的Token数量已达数万亿规模,累计服务用户超过1000万,并与逾1万家企业客户建立了合作关系,其服务范围涵盖政企、互联网、金融、能源、交通及文娱等众多行业。

硅基流动相关负责人认为,推动Token需求持续高涨的动力来源于三个层面:首先,头部大模型公司为维持自身的市场竞争力,在训练与推理算力的采购量方面呈现出持续飙涨的态势,伴随着模型参数规模的不断扩大以及多模态能力的引入,所消耗的算力也呈现出指数级上升的趋势。其次,垂直行业模型公司现已进入规模化投入的阶段,它们凭借自身的行业数据资源,持续开展模型的训练与迭代工作,从而形成了长期且稳定的需求。最后,AI Agent的兴起正在引爆新一轮的算力消耗,当Agent执行多步骤任务、调用各类工具并进行复杂推理时,其单次任务所消耗的Token数量远高于传统的对话场景。

这种需求的快速攀升,已给算力供给方带来了明显的供应紧张压力。在阿里巴巴的业绩交流会上,首席执行官吴泳铭直言:“目前服务器里没有一张显卡是闲置的,客户的需求无法得到完全满足,排队等待的情况还很多。”

魔形智能相关负责人陆嘉骏向《科创板日报》记者提到,从客户的反馈情况来看,这些客户也在不断催促着我们去增加算力资源,并扩大整体的供应量,“这表明,当前所处的是一个增速非常快的增量市场,并且这一市场长期都处于供不应求的状态之中”。

联想集团董事长兼CEO杨元庆进一步阐明了需求结构的演变方向。他在业绩会上表示,AI基础设施正处于爆发式增长阶段,目前约有70%-80%的AI基础设施(以GPU服务器为主)被用于模型训练,仅有20%-30%用于推理。不过他预测道:“未来这一比例很可能会逆转,70%将用于推理,30%用于训练。”杨元庆同时强调,这并不意味着训练对算力的需求会下降,恰恰相反,训练需求仍将保持持续增长。这一趋势也反映出大型云服务厂商已难以完全满足市场的算力缺口,一批新兴的云服务商(Neocloud)正以更快的速度实现崛起。

image

▍随着Token经济学的兴起,算力行业的商业模式得以重构。

Token消耗量的急剧攀升,正在促使整个产业链对价值交换的底层逻辑进行重新思考。在过去,算力市场所遵循的是"硬件资源租赁"模式;而如今,一种更加灵活、更贴合应用层需求的"Token服务"模式正在兴起。这正是"Token经济学"的核心所在,也就是将底层算力进行封装,转化为可计量、可定价、可结算的智能服务。

然而,这一转变并非是简单的“新老交替”。优刻得相关负责人指出,Token计费与算力租赁这两种模式,会在未来相当长的一段时间内处于阶段性共存的状态。从长远来看,AI服务全面转向按实际Token用量进行计费,无疑是未来发展的大势所趋;但在当前以及未来相当长的一段时间内,裸金属服务器与云服务器的租赁模式不仅不会因此消亡,反而在特定的应用场景下,依然拥有着可观的市场空间与成长潜力。

他指出,其中的原因在于,人工智能领域的创新并非仅有"调用API"这一条发展路径。对于众多立志于构建核心竞争壁垒的人工智能初创公司而言,拥有自主研发的模型能力是其区别于竞争对手的关键所在,而简单地调用通用型API则难以形成具有差异化的"护城河"。此外,在数据安全与合规方面也存在刚性约束条件,金融机构、医疗机构以及大型制造企业的核心数据必须实现"不出域"的安全保障,因此这些企业更倾向于在所租赁的独占性算力设备上,完成自有模型的训练、微调以及推理部署等工作。在上述应用场景当中,裸金属租赁模式所提供的独占性、可控性以及性能确定性,是当前MaaS按量计费模式暂时无法完全替代的。

优刻得相关负责人指出,短期内确实会形成一定程度的"分流效应":初创企业以及传统企业的创新团队,为了能够快速验证自身的想法、降低前期投入成本,会优先选用按Token进行计费的MaaS服务,这在一定程度上会对裸金属租赁的增量需求产生抑制作用。然而,这种冲击本质上是阶段性的。当企业完成技术验证、业务体量达到一定规模之后,为确保自身的市场竞争力、数据主权以及模型自主权,它们将会转向构建专属的AI能力。届时,算力租赁方面的需求会再次得到释放,并且从"通用算力租赁"升级为"面向专属模型的智算租赁"。Token计费模式降低了创新的门槛,吸引了更多企业成为AI领域的"尝试者";而这些"尝试者"终将成长为"重度用户",为算力租赁市场带来更加坚实、更具长尾特征的增量需求。

image

从更为深层的角度来看,Token经济正在促使整个行业的价值链与商业模式发生重构。知名咨询机构CIC灼识的董事总经理董晓雅指出,这一转变主要体现在两个层面。首先,算力的定价逻辑正从“按资源时长计费”转向“按服务消耗计费”,客户所关注的焦点不再是租赁了多少GPU,而是实际消耗了多少Token、响应是否足够稳定以及成本是否处于可控范围。其次,行业的竞争核心将从“谁拥有更多的算力”逐步转向“谁能够以更高效的方式生产Token”。未来,决定厂商盈利能力的关键,将在于其对单位Token生产成本的控制能力,这涉及服务器利用率、缓存命中率以及推理框架效率等一系列复杂的技术栈优化。

在此背景下,算力租赁厂商所扮演的角色也正在经历根本性的转变。董晓雅指出,厂商需要从传统的硬件出租商,向AI基础设施服务商的方向进化,这意味着它们需要具备模型部署、推理优化、API服务、SLA保障乃至行业场景适配等综合能力。与之相应的,其商业模式也将逐步演化为基础租金、用量计费以及效果分成相结合的混合模式。

这一转变所带来的直接结果,便是“Token工厂”及“Token运营商”的兴起。硅基流动的业务负责人就此提出了一个形象的比喻:从“卖算力”到“卖Token”,对整个行业所带来的影响是巨大的。这一转变不仅使得算力服务商能够摆脱低水平的资源租赁竞争,更通过与AI基础设施厂商展开合作,将任意一个算力中心迅速转化为能够生产高价值Token的“工厂”。而对于广大的中小开发者以及创业公司而言,按Token进行计费的模式,则极大地降低了他们在探索与试错过程中所需的成本。

魔形智能相关负责人陆嘉骏同样持有这一观点,他认为这有望使得更多AI应用领域的创新创业成为现实,从而大幅降低创业的门槛,开拓出更为广阔的潜在应用市场。"创业公司只需确定所要使用的底层大模型来进行产品的开发,同时与Token工厂之间建立供应关系,在调用时借助API接口以及数行Python代码,便能够稳定地获取到这些模型所具备的能力,从而将主要精力聚焦于产品研发的环节之中。这就好比在过去设计家用电器时,需要自行配置发电机、添加燃料来进行发电,而现在只需专注于电器本身的设计工作即可,插头采用的是标准规格,用户接入之后便能直接使用。"这一全新的开发范式,将有望点燃AI应用创新的燎原之火。

尽管"Token工厂"这一模式具备令人振奋的潜力,但现实情况是:当需求呈现指数级增长时,算力的供给能力,特别是能够以高性价比方式生产Token的算力,正承受着严重的短缺压力。

面对如此显著的市场供需缺口,国产算力产业正迎来一个至关重要的战略窗口期。目前,已有多家从事大模型以及垂直行业模型开发的企业,开始逐步将部分推理任务迁移至国产芯片平台之上。其中,一些技术研发实力较为雄厚的企业,甚至已成功依托国产芯片构建起了完整的智能计算集群,并开始面向市场提供基于Token计量的模型服务。

然而,机遇与挑战总是并存。硅基流动的业务负责人指出,国产算力在全面替代英伟达生态方面仍有差距。挑战主要体现在三个维度:第一,软件生态支撑丰富度不足,这导致了开发者迁移成本高企;第二,CUDA兼容性仍是痛点,国产芯片多采用“兼容CUDA”或“自研编程框架”两条路线,但前者往往无法做到100%兼容,后者则需要客户投入额外迁移成本;第三,卡间互联能力存在代差,PCIe协议在带宽和延迟上相比NVLink仍有显著差距,从而影响大规模集群的训练效率。

魔形智能的陆嘉骏一针见血地指出:“严格来说,并非是算力供不应求,而是Token供不应求。”他进而解释道,按照当前市场的Token价格,一个纯商业化的项目如果选用国产芯片来运行,基本上都是亏损的,而造成Token生产成本高昂的原因,主要受制于当前国产芯片的性能。

这一观点获得了大模型厂商方面的印证。DeepSeek在发布其V4预览版时便坦言,由于受到高端算力资源的制约,其服务的吞吐能力受到了制约,预计要等到下半年新一代昇腾芯片实现批量上市之后,价格方面才会具备大幅下调的空间。陆嘉骏将此视为一个明确的信号:“从今年下半年起直至明年,这些国产算力卡便有望跨越盈亏平衡点,从而获得更大规模的部署与应用。”

CIC灼识董事总经理董晓雅从市场发展的维度对此进行了归纳与总结。她认为,当前算力市场所呈现的供需失衡本质,仍在于有效算力的供给能力尚显不足。市场真正稀缺的并非名义上的算力规模,而是那些具备“可用、易用且可规模化交付”特性的有效算力。因此,未来的行业竞争格局将发生根本性转变,从过去对单一芯片性能的侧重,转向对芯片供给、服务器集成、超节点架构、网络互联、存储、推理框架、模型适配、异构调度以及应用生态等多个环节的协同能力竞争。在此趋势下,那些能够整合系统级能力并实现场景落地的厂商,将更有可能在新一轮人工智能基础设施的重构过程中,建立起持久的竞争优势。

来源:从“卖卡”到“卖Token”:AI算力市场重构与国产芯片的窗口期|深度 | 财联社

声明:本文来自财联社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/