国产大模型海外榜单斩获多项第一，阶跃星辰、智谱、MiniMax面临破局挑战。

2026年06月05日 17:56

本文共计3746个字，预计阅读时长13分钟。

来源/每日经济新闻责编/MoRanShiguang 墨染时光

每经记者｜郑欣蔚每经编辑｜梁露月、毕陆名

编辑| 梁露月毕陆名杜波校对| 段炼

发布仅一周，阶跃星辰最新开源基座模型Step 3.7 Flash便冲上海外热榜，并在海外大模型评测平台Artificial Analysis上拿下多个第一。4日，阶跃星辰在官方微信公众号公布了这一消息。

《每日经济新闻》记者注意到，在Artificial Analysis的Output Speed输出速度榜单之中，Step 3.7 Flash以409 Tokens/s词元/秒位列主流模型第一，同时在端到端响应时长End-to-End Response Time、智能效率Intelligence vs.Output Speed以及速度价格比Output Speed vs.Price等关键指标方面也均处于领先位置。此前，在该模型发布2天之后，Step 3.7 Flash还登上了OpenRouter Trending全球第二位，进而成为近期全球开发者社区最受关注的开源模型之一。

然而，在高光表现之下，“百模大战”的持续竞争压力也同样清晰：在Step 3.7 Flash发布的同期，与阶跃星辰同属“AI六小龙”的智谱，已提前推出同速率的高速API应用程序编程接口；6月1日，MiniMax也携具备百万上下文能力的新一代通用模型M3强势卡位。

快思慢想研究院院长、特邀评论员田丰在接受《每日经济新闻》记者采访时表示，Step 3.7 Flash的推出，意味着阶跃星辰已在效率基础设施这一细分赛道释放出可验证的技术信号，但尚未构建起具备防御性的差异化护城河。“相较于智谱、MiniMax等竞争对手，阶跃星辰目前仍处于‘滞后’位次。”田丰说，“这里所指的滞后，主要体现在产品触达层以及开发者生态仍存在系统性空缺，而并非模型技术本身存在落差。”

Step 3.7 Flash速度抢眼

但规模化生产采用仍存不确定性

“模型竞争正在从单纯追求峰值智能，转向追求在单位成本之下能够持续交付多少有效智能。高效率Flash模型通常是指轻量、快速、低成本的模型版本，未来或将不再只是旗舰模型的补充，而是会成为AI人工智能生产化时代最重要的基础模型形态之一。”阶跃星辰如此解释其对Flash模型进行押注的原因。

Step 3.7 Flash于5月29日正式发布并完成开源。据官方介绍，Step 3.7 Flash选用了稀疏MoE架构，总参数为196B+1.8B（ViT），激活参数仅为11B，从而在模型能力、推理成本以及执行效率之间实现了更优的平衡。与此同时，其最高生成速度可达400 Tokens/s，因此更适合应用于高频、多轮、低等待的Agent智能体场景。

速度表现确实抢眼，但正如阶跃星辰所述，Step 3.7 Flash所追求的并不只是“更快”或“更便宜”，而是成为一款真正“面向生产级Agent的高效率模型”。在阶跃星辰看来，随着Agent由Demo逐步进入真实生产环境，模型不仅需要回答问题，还要能够理解复杂输入、主动搜索信息、稳定调用工具，并在多轮任务推进过程中持续保持执行轨迹。这意味着，底层基础模型所面对的要求已明显不同，与此同时，用于衡量模型能力的关键指标也正在随之变化。

为此，Step 3.7 Flash围绕生产级Agent对四项能力进行了优化：其一是原生多模态理解与执行，能够识别图表、软件界面以及驾驶面板，并拆解具体实操步骤；其二是联网与视觉搜索增强，具备图像及全网检索能力，可对不确定信息进行自主交叉核验；其三是高稳定性的工具调用与编排，支持浏览器、终端、办公软件等66类工具的连贯调用；其四是全生态适配主流Agent开发框架，同时兼顾云端商用以及本地轻量化部署。

在“好用”这一评价维度上，阶跃星辰所公布的“成绩单”显示，在τ²-bench Telecom即陶平方基准中的电信客服评测场景里，该模型在低、中、高三档推理难度之下的通过率均已达到98%以上。

对于这一高分表现，田丰在接受《每日经济新闻》记者采访时解读称，τ²-bench测试作为一款面向大语言模型对话智能体的评测基准工具，也是当前最贴近生产级Agent场景的工具调用基准之一，其重点测试的是模型在用户、工具以及数据库三方交互中的一致性与抗错能力，因此，98%的得分确实具有较强的参考价值。

但他也泼了一盆冷水：τ²-bench的测试主要集中在零售、航空以及电信等结构化领域，对于现实Agent工作流中诸如非结构化API、动态上下文切换以及多工具串联失败恢复之类的长尾场景，覆盖仍显不足；此外，尽管Step 3.7 Flash在发布2天后登上OpenRouter Trending全球第二位，但数据显示，其在发布一周内的周Token消耗为566K，处于中等活跃水平，尚不足以据此判断其已被规模化生产采用。

在他看来，真正更值得关注的信号在于，未来Step 3.7 Flash能否在OpenRouter榜单中持续稳定地位居前列，并把调用增长曲线维持数月。

智谱、MiniMax贴身角逐

阶跃星辰真正破局的关键不在速度，而在生态

就在阶跃星辰借助Step 3.7 Flash的登顶表现收获外界关注之际，智谱以及MiniMax也在同一时间窗口内相继出牌，而持续推进的“百模大战”竞争压力，也进一步映照出阶跃星辰高光表现之下所承受的阴影。

一方面，推理速度正在日益成为行业标配，而不再构成差异化优势。5月22日，也就是在阶跃星辰发布Step 3.7 Flash的一周前，智谱已面向部分企业客户推出GLM-5.1高速API“GLM-5.1-highspeed”，并在保留旗舰基座能力的前提下，把输出速度同样提升至400 Tokens/s。短短一周之内，两家国产大模型公司都创下了几乎相同的速度纪录。田丰指出：“这意味着400 Tokens/s已经成为当前推理系统工程的技术收敛点，而并非阶跃星辰所具备的独立优势。”

事实上，在速度这条赛道上从来不缺少追赶者，Flash产品路线也正在吸引行业力量集中布局。例如，近期受到广泛关注的DeepSeek-V4系列模型，便同步推出了Pro和Flash两条产品线，二者均支持高达100万Token的上下文，其中旗舰型号主打推理峰值，而Flash型号则更侧重效率。

另一方面，尽管阶跃星辰围绕生产级Agent推出了最新的开源基座模型，但其新模型所提供的256K上下文窗口，在面对“上下文即竞争力”的长程Agent应用场景时，仍然容易遭遇结构性的能力天花板。

Step 3.7 Flash发布3天后，MiniMax正式推出了新一代通用模型M3，主打前沿Coding编程能力、1M超长上下文以及原生多模态的完整组合，由此与阶跃星辰形成了清晰分化的技术路线。田丰认为，MiniMax M3借助百万级上下文窗口，可以应对复杂任务上限方面的瓶颈，并依赖“能力完整性”来支撑更高的API单价；阶跃星辰则坚持“单位成本下的有效智能”，把目标锚定在高频轻量化Agent基础设施之上。前者依靠能力峰值路线争夺复杂任务定价权，后者则借助速度路线锁定基础设施层面的调用频率。

“这两条路线并不构成零和竞争关系，而是分别对应着Agent生产化进程中的不同价值层级。但阶跃星辰更需要警惕落入‘廉价但可替代’的陷阱：速度以及成本方面的优势，虽然可以为阶跃星辰赢得大量中低复杂度的Agent场景，但这类场景本身的迁移成本同样较低，其护城河也更容易受到侵蚀。”田丰表示。

他进一步指出，相较于智谱以及MiniMax，阶跃星辰在产品推进节奏以及生态布局方面仍存在一定滞后，而这类短板的弥补周期往往长于技术迭代本身。其滞后首先源于数次战略摇摆。阶跃星辰早年深耕面向消费者的C端应用，主力产品“冒泡鸭”停运之后，又从“超级模型+超级应用”路线仓促转向Agent基座研发，由此带来的战略变更形成了产品空窗期，资本市场估值也随之大幅震荡。反观智谱以及MiniMax，在IPO前便已敲定清晰的发展路径：智谱依托GLM全系产品，持续推进政企MaaS（模型即服务）商业化；MiniMax则借助Talkie等C端产品积累流量，并构筑全球化增长飞轮，二者均已较早完成用户触点沉淀。

“尽管阶跃星辰牵头联合了十余家国产芯片厂商，共同组建模芯生态联盟，并提前开展了国产化算力适配的布局工作，但相关合作目前仍主要停留在硬件层面的基础调试阶段，尚未进一步转化为规模化部署成效以及开发者迁移成果。”田丰表示，“这一生态联盟的属性，更接近于供给侧层面的协同，而真正意义上的生态壁垒，则需要以需求侧开发者所形成的黏性作为回路支撑，就当前情况而言，这一闭环仍未真正形成。”

回到Step 3.7 Flash本身，这款产品借助工具调用方面的稳定性以及速度成本方面的优势，为阶跃星辰守住了效率赛道的入场资格，但仍无力在短时间内修复多年积累的生态欠账。其押注Flash模型的路线固然具备一定的突围价值，但如果全行业都开始集中布局Flash产品，那么阶跃若想避免被淹没，就必须在同质化竞争之中找到那个“不可替代”的答案。

封面图片来源：视觉中国（图文无关）

｜每日经济新闻 nbdnews 原创文章｜

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png