Kimi、千问等主流大模型集体押注2026年德国世界杯,分析预测能力增强,首次全面支持赛事解读。
2026年美加墨世界杯赛事即将展开,而场外由人工智能(AI)主导的赛事预测与分析活动已率先启动。国产大模型如Kimi等纷纷押注本届世界杯,其中,Kimi模型预测德国队可能爆出冷门并最终夺冠,并推出了高达一万亿Token的奖池以激励用户参与。此外,多款国产大模型也预测西班牙队将获得冠军,其预测逻辑呈现出高度的相似性。有专家指出,在当前大模型竞争日趋激烈的背景下,世界杯作为一个巨大的流量池,此类预测行为既是一种有效的市场营销策略,也是各模型从“擅长对话”向“能够执行任务”能力转型的一次集中展示。目前,人工智能代理(Agent)领域所面临的一个最大挑战,正在于如何可靠地完成周期长、真实世界中的复杂任务。
再过数小时,2026年美加墨世界杯就将于北京时间6月12日凌晨正式拉开战幕。而在绿茵赛场之外,由人工智能(AI)技术主导的赛事预测与实力较量,早已率先展开。
6月8日,国产大模型Kimi宣布将通过一个智能体(Agent)集群,同时调度300个子Agent,对104场世界杯赛事的结果进行了公开预测,并提出了关于德国队可能爆冷夺冠的预测观点。与此同时,Kimi还上线了一场与之关联的“押注”活动,设立了一个总规模达1万亿词元(Token)的奖池。用户可以选择支持的球队,若其预测的球队最终获胜,便可参与瓜分这部分Token奖励。此举把体育赛事与AI用户运营进行了深度绑定。
《每日经济新闻》记者,以下简称每经记者,观察到了一个现象,即千问也随后推出了相关活动。通过实测,每经记者发现,在诸如豆包、元宝、DeepSeek、文心一言等国产大模型被问及“2026年世界杯谁会夺冠”时,大多数预测的答案都指向西班牙队,并且判断逻辑也表现出高度的一致性。
在普遍的热闹预测氛围之下,然而最新的评估数据却揭示了,依赖于足球赌盘这类高不确定性预测任务的顶级模型,包括GPT在内,均未能展现出有效的预测能力。
既然在足球赌盘这类高不确定性任务中,预测准确率难以保证,那么Kimi、千问等AI大模型为何仍要积极参与到世界杯的预测活动当中?这一现象背后,实际上揭示了AI大模型行业普遍存在的集体焦虑:当写诗、答题、对话等基础能力层面的“内卷”竞争趋于白热化,各厂商正急于向市场证明,其模型已经发展到能够理解并处理现实世界中那些复杂、动态且充满不确定性的任务的能力。
“万亿Token狂欢”:世界杯成AI“用户拉新战场”
面对世界杯赛事所引发的巨大流量效应,一众品牌早已积极筹备并蓄势待发。在本次活动中参与“押注”的参与方,不仅包括传统赞助商,还包括那些掌握着万亿Token资源的AI大模型。
在6月8日这一天,Kimi对外公布了其具体计划,即借助一个Agent集群,同时调度300个子Agent,对104场世界杯赛事的赛果进行公开预测。此外,该模型还会在每轮比赛开始前公开发布预测结果,并在比赛结束后进行复盘分析。
Kimi的预测策略并未完全追随主流趋势。它不否认当前多数主流模型将西班牙队与法国队列为夺冠最大热门的判断,同样认为两者的夺冠概率位居前列,但提出了另一个值得关注的视角:德国队的夺冠概率可能被市场层面所低估。
Kimi月之暗面公众号
当公众热议“AI预测究竟准不准”以及“AI是否真的懂球”时,Kimi在文章开篇就坦然承认,其预测结果很可能存在偏差,并表示希望通过此次尝试,将分析过程、预测结果与赛后复盘整合置于同一个透明框架之内。

此外,Kimi平台为激励用户参与,专门设立了一个总规模达一万亿Token的活动奖池。根据活动规则,用户不仅需要预测最终的冠军队伍,还需要在赛事过程中挑选自己支持的球队;每当所选球队在单场比赛中获胜,用户即可获得参与瓜分该轮对应Token奖励的资格。截至6月11日18时的数据统计显示,在Kimi App的实时队伍支持率排行中,位列前五名的队伍依次为阿根廷、法国、西班牙、巴西与葡萄牙。其中,已有43.33%的参与用户选择了阿根廷队作为其支持对象。
Kimi“预测冠军队抢万亿Token”活动截图
那么,Kimi参与世界杯预测并投入万亿Token的做法,其根本性质究竟是技术能力的集中展示,还是出于品牌营销的考量?

长期关注世界杯等知名赛事的体育咨询专家、关键之道创始人张庆,向《每日经济新闻》的记者进行了阐释。他认为,Kimi此次发起的活动,与在春节期间通过抢红包、集集福以瓜分奖金等互联网平台惯用的市场推广手段有相似之处,因此他判断,这本质上更接近于一次精心策划的市场推广活动。
每一届世界杯都构成了一个巨大的流量池,各家企业都期望能参与其中,借此获取更多的曝光度与引流机会。与此同时,大模型在开展此类数据分析与预测任务时,具备天然的优势。张庆向每经记者指出,目前,大模型领域的竞争尤为激烈,尤其是在用户注意力与使用频次的争夺方面。借助世界杯这一盛事,一方面能够增强品牌声量,另一方面则有助于提升大模型的用户数据积累与活跃度。
深耕人工智能领域多年的行业技术专家王岩(化名)在谈及此事时表示,大模型对世界杯冠军进行预测,本质上是由体育赛事热点、平台提供的Token补贴激励,以及人工智能代理(Agent)能力展示这三重因素叠加,共同形成的一次现象级传播事件。
王岩的观点是,借助热点进行传播只是切入口,真正的竞争焦点已经转移至,谁更有能力将抽象的模型能力,转化为用户可以具体感知和体验的结果。这意味着,人工智能大模型企业在进行品牌传播时,策略发生了转变,不再仅仅发布参数、榜单与技术报告,而是转向借助高关注度的体育赛事,来为用户创造体验入口;而在商业竞争层面,各个模型争夺的是用户的注意力与使用心智、使用频次、社交传播效应以及开发者的关注。
截至当前,共有多少用户已经实际参与了Kimi所发起的“押注”世界杯预测活动?Kimi方面通过调用Agent集群来执行世界杯冠军预测任务,此举又预期能在哪些具体维度上,为其模型能力带来提升?对此,Kimi(其运营方为月之暗面)向《每日经济新闻》记者表示:“尚无正式回应。”
多款国产大模型共同预测西班牙队夺冠,究竟是精准共识还是算法趋同?
除了Kimi之外,其他人工智能大模型领域的参与者也正试图参与其中,从这一全球性体育盛事所带来的关注度与流量中获益。例如,千问也推出了名为“决战美加墨,与千问一起预测,赢万元现金”的专属活动,积极参与到这场人工智能技术展示与营销的较量之中。
千问App截图

张庆向《每日经济新闻》的记者进行了阐述,分享了他此前借助DeepSeek与豆包对2026年世界杯冠军进行预测的经历,目的在于对比两者的分析逻辑是否具有合理性。然而,他指出这两个模型所给出的预测结论及支撑理由均存在较为明显的局限性。
在国产大模型的预测视野中,哪支队伍会成为“2026年世界杯冠军”?通过《每日经济新闻》记者对多款主流国产大模型进行的实测发现:DeepSeek通过其推理分析,将冠军归属指向了法国队;Kimi则通过其预测系统,表达了对阿根廷队的看好。值得注意的是,千问、豆包、元宝、文心一言与智谱清言这五款国产大模型,在预测逻辑上呈现出高度一致,均将支持票投给了西班牙队。
这些AI模型为各自选定的夺冠候选队伍,都给出了自己的理由。一个值得玩味的现象是,那些一致将预测票投给西班牙队的模型们,其背后的判断逻辑却惊人地相似,其中一个核心论据几乎如出一辙:“权威数据模型与相关机构,均高度一致地看好该队。”
大模型的预测究竟准不准?能否获得球迷的青睐?

上海财经大学特聘教授胡延平向每经记者表示,AI大模型已显现出基于全局动态信息与深度复杂推理的预测能力,从而为各家大模型参与此类预测提供了初步的技术基础与信心。然而,“足球是圆的”,其结果具有固有的不确定性,因此这类预测的成功率与精准度,仍有待通过实际比赛结果加以检验。
“世界杯预测活动无疑为相关技术模型与智能体提供了一个难得的展示窗口,用以呈现其当前的技术水准。然而,预测结果所能产生的影响与风险,实质上构成了一把双刃剑。就个人预期而言,在本届世界杯期间,表现最为优异的预测模型,其成功率或许能够达到60%至80%的区间。”胡延平对此坦言。
然而,Kelly Bench在2023至2024赛季英格兰超级联赛的模拟研究中所呈现的结果显示,其所评估的每一个前沿模型在整个赛季期间均处于亏损状态,且其中有相当数量的模型经历了破产的情形。具体而言,Claude Opus 4.7在当前阶段以-3.7%的平均投资回报率处于相对领先的位置;在全部参评模型之中,仅有4个模型成功避免了所有破产事件的发生。
Kelly Bench截图

“AI更多是作为一个辅助性工具而存在。它通过综合分析战队历史战绩、世界杯排名、博彩赔率以及国际足联相关数据等海量信息,完成了多维度的预测工作,并在汇总后提供了客观的数据统计结果。因此,作为参考工具来使用确实具有一定的价值,但并不会因此完全依赖其预测结果。”一位长期关注世界杯的资深球迷告诉《每日经济新闻》记者。
上述球迷认为,与大模型所开展的预测相比,每位球迷都更倾向于支持自己所喜爱的球队,主观偏好会在判断过程中占据相当大的比重;并且越是进入决赛阶段,比赛结果就越发取决于球员在临场的即时发挥以及双方在心理层面的博弈与较量,其中存在的不确定性因素过多。
从"对话能力"转向"任务执行",AI厂商押注世界杯预测活动背后的竞争焦点何在?
当Kimi投入万亿Token并调度300个子Agent执行世界杯赛事并行预测,当千问、豆包、元宝等模型相继给出了各自预测的夺冠热门队伍时,这场表面上具有娱乐性质的“AI押注战”,其深层意图与集体行为逻辑究竟指向何处?这些AI大模型厂商试图展示的核心能力是什么,又在参与何种同质化的竞争?
“在本轮大模型对世界杯冠军的预测活动中,生成式人工智能展示了其从单纯的问答工具演进为能够参与公共事件运营的典型应用范例。”王岩向每经记者分析道,“公众所关注的焦点是预测结果本身,而企业借此所展示的核心能力,则包括多智能体协同工作、处理超长上下文信息、进行实时检索与数据整合、提供带有概率解释的预测结论,以及应对高并发访问的服务架构。在商业竞争层面,各方实际争夺的是用户的注意力时长、潜在的付费转化机会,以及面向资本市场所构建的差异化叙事能力。”
Kimi月之暗面公众号

当前,AI大模型领域的竞争重心,已显著超越单纯对模型参数规模的衡量,正经历着从侧重对话交互功能,到侧重执行现实世界复杂任务的能力转变,以及从单纯比较模型本身,到比较其具体应用场景实效性的转变。然而,《Build for the Future 2025》这份全球性研究报告的数据表明,在对全球1250多家企业进行调研后,发现仅有约5%的公司成功实现了人工智能价值的规模化商业应用。同时,来自Gartner的分析数据也显示,截至2025年底,在企业级应用程序中,内嵌了具备真正自主决策与执行能力的AI智能体(Agent)的比例,其占比尚不足5%。
胡延平观察到,当前的大型语言模型与智能体正经历着一场深刻的范式演进。具体而言,它们正在从提供基础对话能力向执行具体复杂任务的方向发生转变;在学习模式上,从依赖一次性预训练向支持持续动态学习演进;在信息来源层面,则从消化静态的文本语料库,转向对持续的多维度现实信息进行感知与理解。以世界杯赛事预测这类探索性项目为例,此类应用将有效加速上述进化进程。面向未来,行动智能体所必需的能力体系,也正在朝着“感知-交互-决策-协同”的整合性方向发展。
然而,王岩坦诚地指出,世界杯预测这项任务能够承担起对智能体(Agent)能力的公开压力测试职责,但这并不意味着它能自动证明智能体能力的提升。在本次预测活动中,大模型实际上是在进行针对长任务组织、概率校准以及用户交互能力等方面的训练与检验。
“Kimi所采用的三百个代理,主要是在分析覆盖面上实现了扩展,但这并不直接等同于预测准确率的提高。针对代理任务的令牌(Token)消耗相关研究表明,针对同一任务,不同的令牌消耗量之间可能存在数十倍的差异,这意味着消耗更多的令牌,并不必然会导致准确率获得相应提升。同样地,相关预测竞技场(Prediction Arena)的研究也指出,多个前沿模型在Kalshi真实预测市场为期五十七天的交易测试中,最终收益率介于负百分之十六点零至负百分之三十点八之间,这表明研究规模与最终结果之间并不存在明确的对应关系。”王岩向《每日经济新闻》记者进一步分析道。
正如王岩所指出的:"当前Agent所面临的最大缺口,已经从'能否给出合理的计划'逐步转向'能否稳定地完成长周期的真实任务'。"这意味着,哪家企业能够率先将"实战能力"加以落地,哪家就有机会在竞争日趋激烈的格局当中占据先机。
封面图片来源:Kimi公众号
来源:Kimi、千问等AI集体押注世界杯⋯⋯大模型不再比拼聊天,为何集体扮演“懂球佬”? | 每日经济新闻