RoboArena具身智能榜单排名被指数据造假

2026年06月22日 10:42
本文共计10957个字,预计阅读时长37分钟。
来源/OFweek机器人网 责编/LehuoChufang 乐活厨房

作者 | 陈泊丞

 

在当时的市场环境下,千寻智能被普遍认为是整个具身智能领域内当之无愧的明星企业。

首先,千寻智能所自研的具身基座模型Spirit v1.6,在RoboArena榜单上的综合得分位居全球首位,成功超越了英伟达的Cosmos3以及Physical Intelligence的Pi0.5,从而打破了硅谷在相关榜单上长期占据主导地位的魔咒。

二是千寻智能成功获得了15亿元的A+轮融资,这使得其在三个月内的累计融资额接近50亿元,从而刷新了具身智能赛道的纪录。

这两件事所传递出的信息含量极为庞大,它们均源自千寻智能于6月3日通过其官方公众号发布的一篇题为《双线告捷!千寻智能Spirit v1.6横扫北美「具身奥林匹克」夺冠,再获15亿元A+轮融资》的推文。在技术层面实现登顶的同时,资本层面也获得了强力加码,这两条关键的发展主线交汇于同一时间节点,使得整体局面显得顺理成章,形成了相互印证与促进的闭环。

在这篇推文中,RoboArena被赋予了极高的评价——"北美具身智能奥林匹克""世界级权威主榜单""机器人领域的Chatbot Arena"。这些称号汇聚在一起,向外界传递的信息十分明确——这并非一次普通的榜单上榜,而是一场国际赛场上的登顶。

资本追逐并追捧榜单,而榜单反过来又会助力融资,其中的逻辑环环相扣。

然而,在仅仅几天之后,事情便开始呈现出不对劲的迹象。

有观察者注意到了RoboArena平台所公示的Spirit 1.6评测数据存在若干引人深思的异常之处。在总计310次的评测记录中,有高达72%的分数集中来源于两个特定账号——“ECUST Robot Lab”(完成了179次评测,取得了97%的胜率)以及“Robotics Lab”(完成了45次评测,取得了86.7%的胜率)。与此同时,作为对比,英伟达方面使用相同模型进行的21次评测,则呈现出0%的胜率结果。这一数据分布背后的成因,值得进一步的探究。

更为戏剧性的情况在于,RoboArena的官方机构随后迅速发布了一项正式公告。在进行回溯调查之后,他们移除了一批被判定为可疑的评测数据,并对榜单排名进行了更新。至此,Spirit 1.6的名称便从榜单当中消失了。

从通过刷榜行为登上榜单,到发布宣传文章,再到成功获得融资,最终被榜单移除,整个过程在短短数日内连续发生。事件推进速度异常迅猛;然而,客观分析表明,这已超越普通排名波动,而是将行业信任置于火上炙烤的严峻境地。

 

蓄谋已久的分数操纵——RoboArena的榜单信任是如何被破坏的?

先说清楚RoboArena的玩法是什么。

客观而言,从设计初衷来看,RoboArena并非一个可以轻易被操纵的评测平台。其所采用的核心逻辑在很大程度上借鉴了大模型领域的Chatbot Arena范式:评测者无法预知自己正在测试的具体模型是哪一个,这确保了双盲原则;其对手是通过ELO算法随机配对的;而所使用的评测数据则源自全球范围内不同机构的真实操作环境。

从理论层面而言,该机制为自我评分设置了很高的门槛。评测者无法掌控匹配的对手是谁,也无法干预具体的评测环境,同时,评测人员的独立判断同样不受其影响。这套机制的内在设计决定了其很难被作弊行为所突破。

 

然而,“理论上”这一表述,恰恰往往是所有漏洞的起源所在。

作为开放注册的分布式评测框架,RoboArena允许各类机构完成注册并成为评测者(Evaluator),随后在各自部署的机器人硬件上开展对应的评测任务。

当然,这个设计的初衷在于让评测过程摆脱中心化与单一化的局限,但与此同时,它也引出了一个相当直接的操作路径:如果意图进行分数操纵,评测者只需首先为自己完成一个评测者账号的注册即可。

ECUST Robot Lab与Robotics Lab这两个账号于5月26日完成了系统注册。自该日起,Spirit 1.6的评测记录便开始出现爆发式增长。

另一个值得注意的情况是,另一家具身企业X Square Robot(自变量)在注册其评测账号时,直接采用了公司的全称进行命名。这一操作在很大程度上揭示了该评测体系中的一个核心现实——执行评测的机构并非所谓的“第三方独立主体”,而是被评测的厂商自身。

 

 

其次,在通常情况下,一个评测者应当对榜单上的多个模型开展相对均衡的评测工作。这是分布式评测框架的基本逻辑,因为数据分散在不同的评测者手中,汇总后方能具备统计意义。

但ECUST Robot Lab与Robotics Lab在加入评测体系后,其主要活动几乎完全集中在反复对Spirit 1.6进行评测上。ECUST Robot Lab总共进行了276次评测,在这些评测中,有179次的目标模型是Spirit 1.6,这占其总评测次数的64.5%。Robotics Lab则累计执行了142次评测,其中45次针对Spirit 1.6,占比达到31.7%。将两个账号的评测数据合并后,它们共同贡献了Spirit 1.6全部评测数据的72%。

整体数据分布的构成如下:高达72%的评测记录由两个特定账号提交。这两个评测者账号与被测评的企业存在直接关联,属于关联实体。剩余的28%数据则来源于其他评测者。这些评测者独立于被测评企业,其得出的评测结果与上述两个关联账号所提供的数据截然不同。

到这里,事情已经够明显了。

但还不止。

ELO天梯机制的主要作用体现在,参与者只能与排名相近的对手进行交手;当对手排名越高时,胜利所获加分越多,失败所扣分数也越严厉。该机制的设计初衷是防止参与者通过与低分对手反复对战来冲击排名——由于与较弱对手交手的收益效率较低,若要提升排名,就必须战胜更强的对手。

通过分析其评测记录可以发现,Spirit 1.6实际上采用了一种规避性的策略。该策略并非简单地选择实力较弱的对手,而是刻意回避那些真正具有竞争力的强敌,以一种看似精明的方式规避了直接交锋的风险。

在前期阶段,Spirit 1.6与当时排名榜首的DreamZero进行了共计23次对决。其战绩为17次负场、4次平局以及2次胜场,整体处于明显劣势。此后,Spirit 1.6停止了与DreamZero的对战。双方之间的最后一次对决记录定格在5月31日。

甚至包括后来跃居榜首的Cosmos3-Nano-Policy模型,它在5月30日才加入评测行列。然而,Spirit 1.6与它之间,竟未曾发生过哪怕一次直接的对决记录。

一个在榜单上攀升至首位的模型,却从未与榜单上真正的前两名进行过正式对决。这并非由于技术层面无法实现公平对决,而是在评测策略层面上,有选择性地回避了所有可能落败的对手。

 

综合以上分析,这场刷分操作的完整脉络已经十分明确:首先完成注册流程,将两个关联账号成功导入评测系统;随后借助这两个特定账号,集中执行针对Spirit 1.6的高频次评测,所提交的高分数据在该模型的总评测量中占据了72%的比重;与此同时,以系统所设定的"随机匹配"机制作为掩护,有选择性地回避了榜单上所有具备直接竞争实力的对手。

从机制设计角度而言,ELO天梯排名体系仍在系统内部正常执行其评分与匹配算法。然而,就实际效果和公信力层面评估,该排名所本应具备的竞争与验证价值,在当前操作环境下已被实质性地架空或失去意义。

榜单狂欢背后,具身智能行业正在经历什么?

千寻智能在当时的市场环境下,曾被普遍视为整个具身智能赛道内名副其实的明星企业。

首先,千寻智能所自主研发的具身基座模型Spirit v1.6,在RoboArena榜单上的综合得分达到了全球首位,成功超越了英伟达的Cosmos3以及Physical Intelligence的Pi0.5,从而打破了硅谷在相关排行榜上长期占据主导地位的局面。

二是千寻智能成功获得了15亿元的A+轮融资,这使得其在三个月内的累计融资额接近50亿元,刷新了具身智能赛道的融资纪录。

这两件事所释放出的信息量极为庞大。它们均源自千寻智能于6月3日通过其官方公众号发布的一篇题为《双线告捷!千寻智能Spirit v1.6横扫北美「具身奥林匹克」夺冠,再获15亿元A+轮融资》的推文。在技术层面实现登顶的同时,资本层面也获得了强力加码,这两条关键的发展主线交汇于同一时间节点,使得整体局面显得顺理成章,形成了相互印证与促进的闭环。

在这篇推文中,RoboArena在宣传中被赋予了极高的评价——“北美具身智能奥林匹克”、“世界级权威主榜单”、“机器人领域的Chatbot Arena”。这些称号汇聚在一起,向外界传递的信息十分明确——这并非一次普通的榜单上榜,而是一场国际赛场上的登顶。

资本追逐并追捧榜单,而榜单反过来会助力融资,其中的逻辑环环相扣。

然而,在仅仅几天之后,事情便开始呈现出不对劲的迹象。

 

有分析人士注意到了RoboArena平台所公示的Spirit 1.6评测数据存在若干引人深思的异常之处。在总计310次的评测记录中,有高达72%的分数集中来源于两个特定账号——“ECUST Robot Lab”(完成了179次评测,取得了97%的胜率)以及“Robotics Lab”(完成了45次评测,取得了86.7%的胜率)。与此同时,作为对比,英伟达方面使用相同模型进行的21次评测,则呈现出0%的胜率结果。这一数据分布背后的成因,值得进一步的探究。

更为戏剧性的情况在于,RoboArena的官方机构随后迅速发布了一项正式公告。在进行回溯调查之后,他们移除了一批被判定为可疑的评测数据,并对榜单排名进行了更新。至此,Spirit 1.6的名称便从榜单当中消失了。

 

从通过刷榜行为登上榜单,到发布宣传文章,再到成功获得融资,最终被榜单移除,整个过程在短短数日内连续发生。事件推进速度异常迅猛;然而,客观分析表明,这已超越普通排名波动,而是将行业信任置于火上炙烤的严峻境地。

蓄谋已久的分数操纵——RoboArena的榜单信任是如何被破坏的?

客观而言,从设计初衷来看,RoboArena并非一个可以轻易被操纵的评测平台。其所采用的核心逻辑在很大程度上借鉴了大模型领域的Chatbot Arena范式:评测者无法预知自己正在测试的具体模型是哪一个,这确保了双盲原则;其对手是通过ELO算法随机配对的;而所使用的评测数据则源自全球范围内不同机构的真实操作环境。

从理论层面而言,该机制为自我评分设置了很高的门槛。评测者无法掌控匹配的对手是谁,也无法干预具体的评测环境,同时,评测人员的独立判断同样不受其影响。这套机制的内在设计决定了其很难被作弊行为所突破。

然而,“理论上”这一表述,恰恰往往是所有漏洞的起源所在。

作为开放注册的分布式评测框架,RoboArena允许各类机构完成注册并成为评测者(Evaluator),随后在各自部署的机器人硬件上开展对应的评测任务。

当然,这个设计的初衷在于让评测过程摆脱中心化与单一化的局限,但与此同时,它也引出了一个相当直接的操作路径:如果意图进行分数操纵,评测者只需首先为自己完成一个评测者账号的注册即可。

ECUST Robot Lab与Robotics Lab这两个账号于5月26日完成了系统注册。自该日起,Spirit 1.6的评测记录便开始出现爆发式增长。

另一个值得注意的情况是,另一家具身企业X Square Robot(自变量)在注册其评测账号时,直接采用了公司的全称进行命名。这一操作在很大程度上揭示了该评测体系中的一个核心现实——执行评测的机构并非所谓的“第三方独立主体”,而是被评测的厂商自身。

其次,在通常情况下,一个评测者应当对榜单上的多个模型开展相对均衡的评测工作。这是分布式评测框架的基本逻辑,因为数据分散在不同的评测者手中,汇总后方能具备统计意义。

但ECUST Robot Lab与Robotics Lab在加入评测体系后,其主要活动几乎完全集中在反复对Spirit 1.6进行评测上。ECUST Robot Lab总共进行了276次评测,在这些评测中,有179次的目标模型是Spirit 1.6,这占其总评测次数的64.5%。Robotics Lab则累计执行了142次评测,其中45次针对Spirit 1.6,占比达到31.7%。将两个账号的评测数据合并后,它们共同贡献了Spirit 1.6全部评测数据的72%。

整体数据分布的构成如下:高达72%的评测记录由两个特定账号提交。这两个评测者账号与被测评的企业存在直接关联,属于关联实体。剩余的28%数据则来源于其他评测者。这些评测者独立于被测评企业,其得出的评测结果与上述两个关联账号所提供的数据截然不同。

ELO天梯机制的主要作用体现在,参与者只能与排名相近的对手进行交手;当对手排名越高时,胜利所获加分越多,失败所扣分数也越严厉。该机制的设计初衷是防止参与者通过与低分对手反复对战来冲击排名——由于与较弱对手交手的收益效率较低,若要提升排名,就必须战胜更强的对手。

通过分析其评测记录可以发现,Spirit 1.6实际上采用了一种规避性的策略。该策略并非简单地选择实力较弱的对手,而是刻意回避那些真正具有竞争力的强敌,以一种看似精明的方式规避了直接交锋的风险。

在前期阶段,Spirit 1.6与当时排名榜首的DreamZero进行了共计23次对决。其战绩为17次负场、4次平局以及2次胜场,整体处于明显劣势。此后,Spirit 1.6停止了与DreamZero的对战。双方之间的最后一次对决记录定格在5月31日。

甚至包括后来跃居榜首的Cosmos3-Nano-Policy模型,它在5月30日才加入评测行列。然而,Spirit 1.6与它之间,竟未曾发生过哪怕一次直接的对决记录。

一个在榜单上攀升至首位的模型,却从未与榜单上真正的前两名进行过正式对决。这并非由于技术层面无法实现公平对决,而是在评测策略层面上,有选择性地回避了所有可能落败的对手。

综合以上分析,这场刷分操作的完整脉络已经十分明确:首先完成注册流程,将两个关联账号成功导入评测系统;随后借助这两个特定账号,集中执行针对Spirit 1.6的高频次评测,所提交的高分数据在该模型的总评测量中占据了72%的比重;与此同时,以系统所设定的“随机匹配”机制作为掩护,有选择性地回避了榜单上所有具备直接竞争实力的对手。

从机制设计角度而言,ELO天梯排名体系仍在系统内部正常执行其评分与匹配算法。然而,就实际效果和公信力层面评估,该排名所本应具备的竞争与验证价值,在当前操作环境下已被实质性地架空或失去意义。

当然,此事件中最令人不快之处,并非刷分行为本身,而是刷分与融资之间紧凑的时间线。

6月3日,千寻智能通过其官方公众号发布推文,宣布旗下具身基座模型Spirit 1.6成功登顶RoboArena排行榜。就在同一天,该公司对外宣布完成了15亿元规模的A+轮融资,三个月之内累计融资额逼近50亿元。

在具身智能这个赛道里,各厂商所采用的技术路径尚未形成统一收敛,商业化验证进程仍处于早期探索阶段。与此同时,外部可供参考的统一评价体系极为稀缺。在这样的背景之下,RoboArena被迅速推到了前台,成为了最为直观、也最容易被资本方所理解的那套“技术证据”。

需要指出的是,榜单排名天然适合写进投资人的尽调材料里。它并非作为一篇需要同行评议的学术论文存在,而是一串可直接载入融资PPT、用以量化技术实力的直观数字与名次。正因如此,当排名本身能够直接影响企业估值与后续的融资节奏时,其背后的刷榜行为便不再仅仅是为了学术声誉的考量,而是由切实的经济利益所驱动的。

但是,RoboArena本身离“权威”还远着。

依据公开资料,RoboArena当前依旧是一个学术原型:其首个版本在7所学术机构内进行了部署,面向7个通用策略完成了大约600次真实机器人的对比测试,并且评测硬件被绑定于DROID平台(Franka Panda 机械臂)之上,还未拓展到其他机器人本体。与此同时,该论文的作者同样在文中提及,未来需要持续验证其排名结果与真实世界表现之间的相关性。

由此可见,这一被宣传为"世界级权威主榜单"的评测框架,在学术界目前仍被定位为具有应用前景的研究方向,距离被确立为行业公认标准尚存在一定的差距。

然而在千寻智能的宣传话语中,这些至关重要的限定条件被完全淡化或抹除。RoboArena被直接赋予至高无上的权威地位,变身为一个已被行业认可的“世界级奥林匹克”。这种将一个尚处验证阶段的学术原型包装为顶级权威认证的叙事转换,使得其资本故事的逻辑得以自洽并广为流传。

截至目前,随着刷分行为遭到揭露,其所产生的代价与影响已远不止千寻智能一家企业需要独自承担。

具身智能是当前中国人工智能领域热度最高的赛道,同时也被国际社会予以广泛关注。此次事件的相关信息已经传播至海外地区。当中国具身智能企业的名称与"刷榜"这一表述被同时置于讨论语境之中时,首当其冲受到牵连的,极有可能是整个行业在国际市场上的可信度与声誉。

更麻烦的是,这种行为还会对那些真正踏踏实实在做事的企业造成反向伤害。当一家公司凭借刷榜手段获得了将近50亿元的融资之后,那些没有采取相同做法、而是在实验室当中本本分分进行技术研发的团队,反而会被持续地质疑与拷问:"你们的排名结果是真实的吗?你们拿什么来证明?"

劣币驱逐良币的现象,正是从这样一个节点悄然启动,并开始在整个行业内逐步扩散开来。

倘若有人由此滋生“既然榜单终将被操纵,那么技术投入便失去了价值”这类消极论调,这恐怕才是此次事件所引发的最为严峻的后果。

另一方面,从另一个角度来看,这次的争议事件本身,确实也提供了值得深入探讨的某些层面。

在Spirit 1.6实施刷分行为的时期,WALL-OSS亦在全力参与榜单的竞争。由于未能掌握定向评测自身模型的方法,WALL-OSS只能在合规的框架内进行常规的榜单测试,最终其排名被两个刷分账号所超越,从而退出了竞争序列。作为一个严格遵守规则并依靠自身实力参与竞争的团队,却由于评测生态的扭曲而被阻挡在门外,这无疑令人感到唏嘘。

此外,Cosmos3-Nano-Policy能够在榜单上取得领先位置,从另一个维度印证了其自身所具备的扎实技术实力。在官方对榜单数据进行更新与清理之后,该模型依然保留在榜单之中。由此可见,只有那些凭借合规评测流程所获得的排名,才能够真正经受住后续的回溯审查。

诚然,榜单本身所呈现的结果并非虚假。部分评测者存在人为操纵分数的行为,这并不意味着整套评价体系应当被全盘废弃。但前提是,所制定的规则必须能够有效拦住那些试图钻空子的人。

结语

根据最新披露的信息,RoboArena已介入处置。该平台对过往的评测记录进行了回溯调查,剔除了存在直接利益关联的评测数据,并重新设定了评测者的准入规则。此举不仅是恰当的,也是必要的。

然而,这起事件的影响与后续行动,不应仅仅止步于榜单数据的更新与修正。

千寻智能事件之所以必须予以严肃审视,并非因为这类事件极为罕见,而是因为它很可能并非孤例。当一个行业的评价体系本身尚未完全成熟,而评价结果又能够直接左右数十亿级别的融资流向时,便会出现系统性的动机去钻规则的空子。这不再是某个个体或某家公司独有的问题,而是由结构所催生的现象。

依赖于一份榜单来讲述具有说服力的融资故事的窗口,至今依然存在。然而,借助本次事件,至少确立了一项能够在公开场合被坦率讨论的共识:你提交给投资人的那个“排名第一”,必须完全属实。

榜单能够被更新,然而信任的重建则更为困难。

从当前阶段来看,具身智能行业的发展道路依然相当漫长。

*本文图片均来源于网络

原标题:RoboArena登顶梦碎!具身智能的榜单狂欢,原来只是一个数据骗局

在当时特定的市场与融资环境下,千寻智能曾被普遍视作整个具身智能赛道中当之无愧的明星企业。

首先,其自主研发的具身基座模型Spirit v1.6,在权威评测平台RoboArena的综合榜单上取得了全球第一的排名,成功超越了英伟达的Cosmos3以及Physical Intelligence的Pi0.5。这一成绩在当时被解读为打破了硅谷在相关技术评测领域长期主导的局面。

与此同时,该公司对外宣布成功获得了规模达15亿元的A+轮融资。此轮融资使得其在三个月内的累计融资额逼近50亿元,刷新了具身智能领域的融资纪录。

这两项消息所传递的信息量极为庞大,且均源自千寻智能于6月3日通过其官方公众号发布的一篇题为《双线告捷!千寻智能Spirit v1.6横扫北美「具身奥林匹克」夺冠,再获15亿元A+轮融资》的推文。在技术层面宣布登顶与资本层面获得强力加码这两条关键信息,交汇于同一时间节点发布,使得其商业叙事显得顺理成章,形成了相互印证与促进的闭环。

在这篇宣传推文中,RoboArena被赋予了极高的评价,例如“北美具身智能奥林匹克”、“世界级权威主榜单”以及“机器人领域的Chatbot Arena”。这些称号汇聚在一起,其意图十分明确——旨在向外界传递一个信息:这并非一次普通的榜单上榜,而是一场具有国际标杆意义的顶尖赛事中取得的胜利。

资本追逐排名,而排名又反过来为融资提供背书,其中的逻辑链条环环相扣。

然而,就在仅仅数日之后,事态开始显现出异常迹象。

有分析人士注意到,RoboArena平台所公开的Spirit 1.6评测数据存在若干引人深思的异常点。在总计310次评测记录中,有高达72%的分数集中来源于两个特定的评测账号——“ECUST Robot Lab”(该账号完成了179次评测,并取得了高达97%的胜率)以及“Robotics Lab”(该账号完成了45次评测,胜率为86.7%)。作为对比,英伟达方面使用同一模型进行的21次独立评测,其结果显示的胜率却为0%。这一显著的数据分布差异,引发了对其背后成因的深入探究。

更为关键的转折在于,RoboArena的官方团队随后迅速发布了一项正式公告。在进行数据回溯调查之后,平台移除了一批被判定为存在利益关联或行为异常的评测数据,并随之对榜单排名进行了重新计算与更新。至此,Spirit 1.6的名称从该榜单的显要位置上消失了。

从通过非常规手段登上榜单,到高调发布宣传文章,再到宣布巨额融资,最终被榜单本身依据规则移除,整个事件链条在极短的时间窗口内连续发生,其推进速度异常迅猛。客观分析表明,这已超越了一般的排名波动,而是将人工智能新兴行业的评测公信力问题,直接暴露于舆论的炙烤之下。

蓄谋已久的分数操纵——RoboArena的榜单信任是如何被破坏的?

客观而言,从评测机制的设计初衷来看,RoboArena并非一个可以轻易被操纵的平台。其所采用的核心逻辑在很大程度上借鉴了大语言模型领域的Chatbot Arena范式:评测者无法预知当前正在测试的具体模型是哪一个,以确保双盲原则;评测对手通过ELO算法进行随机配对;而所使用的评测数据则源自全球范围内不同机构的真实机器人操作环境。

从理论层面分析,该机制为自我评测设置了极高的门槛。评测者无法控制匹配到的对手是谁,无法干预具体的评测任务与环境,同时评测员的独立判断也不受其直接影响。这种机制设计本身,旨在极大增加系统性刷分的难度。

然而,“理论上”这一限定词,恰恰揭示了所有漏洞可能存在的起点。

作为一套开放注册的分布式评测框架,RoboArena允许各类机构完成注册并成为评测者(Evaluator),随后在各自部署的机器人硬件上,根据平台发布的任务集来执行对应的评测工作。

当然,这一设计的初衷在于让评测过程摆脱中心化与单一化实验室的局限,汇聚多元化的测试环境。但与此同时,它也引出了一个直接的操作可能性:如果意图进行分数操纵,评测者只需首先为自己完成一个评测者账号的注册即可。

 

ECUST Robot Lab与Robotics Lab这两个账号于5月26日完成了系统注册。正是自该日起,Spirit 1.6的评测记录开始呈现出爆发式增长。

另一个值得注意的情况是,另一家具身企业X Square Robot(自变量)在注册其评测账号时,直接采用了公司的官方全称。这一操作在很大程度上揭示了该评测体系中的一个核心现实——执行评测的主体机构,往往并非完全中立的第三方,而可能正是被评测企业自身或其关联方。

其次,在正常运作的分布式评测体系中,一个评测者理应对榜单上的多个模型开展相对均衡的评测。因为数据分散在不同的评测者手中,汇总后的结果才能具备统计意义与公平性。

然而,ECUST Robot Lab与Robotics Lab在加入体系后,其评测活动几乎完全集中于反复测试Spirit 1.6这一单一模型。数据显示,ECUST Robot Lab总共进行了276次评测,其中有179次针对Spirit 1.6,占其总评测次数的64.5%。Robotics Lab累计执行了142次评测,其中45次针对Spirit 1.6,占比31.7%。这两个账号的评测记录合并后,共同贡献了Spirit 1.6全部评测数据量的72%。

整体数据的构成因此呈现出明显的二分特征:高达72%的评测记录由两个与被测评企业存在直接或间接关联的特定账号提交;而剩余的28%数据则来源于其他独立评测者,这些独立评测者得出的胜率结果与关联账号所提供的数据形成了鲜明对比。

ELO天梯机制的核心作用在于,参与者通常只能与排名相近的对手交手;战胜排名越高的对手,所获得的积分增长越多,反之失败扣分也越严厉。该机制的设计初衷之一,正是为了防止参与者通过与远低于自身排名的对手反复对战来“刷”高分数,因为与弱手对战的收益效率很低。若想有效提升排名,就必须战胜更强的对手。

通过分析Spirit 1.6的评测记录可以发现,该模型实际上采取了一种规避性极强的策略。它并非简单地选择弱小对手,而是系统性地回避了所有可能令其失败的真正强敌。

在早期阶段,Spirit 1.6与当时排名榜首的DreamZero进行了共计23次对决。其战绩为17负、4平、2胜,整体处于明显劣势。此后,Spirit 1.6停止了与DreamZero的对战,双方最后的对决记录停留在了5月31日。

甚至对于后来跃居榜首的Cosmos3-Nano-Policy模型,尽管它在5月30日才正式加入评测,但在记录中,Spirit 1.6与它之间竟未曾发生过哪怕一次直接的对决。

一个在宣称中登顶的模型,却从未与榜单上真正领先的前两名进行过正式交锋。这并非由于技术或规则限制导致的偶然缺失,而更像是一种在评测策略层面上,经过计算后对所有可能失败风险的刻意回避。

综合以上分析,这场分数操纵的操作路径已十分清晰:首先完成账号注册,将两个关联评测主体导入系统;随后借助这两个账号,集中提交大量针对Spirit 1.6的高分评测结果,使其在自身总评测量中占据了72%的权重;同时,利用系统“随机匹配”的表面规则作为掩护,有选择性地规避了与榜单上所有具备真正竞争力的对手进行直接比拼。

从机制运行角度看,ELO算法依然在系统内部忠实地执行着它的数学计算。然而,就榜单旨在反映模型客观能力、促进公平竞争的初衷而言,其核心价值已因系统性规避与数据偏倚而被实质性架空。

来源:RoboArena登顶梦碎!具身智能的榜单狂欢, 原来只是一个数据骗局 | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/