WDC 2026:高继扬谈从开发者到生产力,具身智能的三重跃迁
6月16日,星海图全球开发者大会(Galaxea WDC 2026)在北京亦庄成功举行。本次大会以“Build with Galaxea”为主题,吸引了600余位全球开发者、顶尖学者、产业链伙伴以及媒体代表齐聚一堂,共襄盛举。会上,新一代VLA基础模型G0.5被正式发布并宣布开源,世界模型Fast-WAM与全身控制基础模型也一同公布。此外,双足人形机器人Kengo(行客)完成了现场首秀。与此同时,数据公司“亦数智能”正式揭牌成立,“星途计划”也于当日同步启动。

在本次大会上,星海图CEO高继扬发表了主题演讲,对该公司三年来走过的路进行了系统回顾,并完整阐述了其对具身智能未来的判断。外界曾将星海图描述为硬件公司或数据公司,但该公司所有工作均围绕同一个核心——具身智能基础模型展开,而模型最终需要解决的是机器人如何在真实世界中创造生产力的问题。
沿着这条主线,他系统性地提出了一系列核心判断:具身智能正经历从“本能智能”到“作业智能”再到“进化智能”三个阶段的演进,未来发展将实现从“人定义机器人”到“AI定义机器人”的范式转移;其商业化路径则是按阶段逐步推进,遵循“从开发者到生产力”的发展顺序。伴随Kengo的正式发布,其于三年前所确立的“整机+智能”这一战略方向正式形成了闭环——使得智能模型与机器人本体,首次在同一家公司内部实现了完整贯通。
我们始终认为,具身智能的定义权不可能由任何单一企业独占。唯有携手全球开发者、客户以及产业界的合作伙伴,才能共同推动其真正转化为生产力。以下是高继扬的演讲全文——Build with Galaxea,让新世界来得更快一些。
非常欢迎大家莅临星海图2026具身智能开发者大会。今天,能够有机会与在座的各位进行交流与分享,感到十分荣幸。我将回顾公司此前一段时期所走过的历程,并阐述公司对于具身智能领域的未来展望。

我想先从一张照片讲起。照片里有我、赵行,还有天威,时间定格在2023年8月。当时,我们刚刚从位于上海的一家投资机构的大门中走出。尽管那家机构后来并未选择投资我们,但那一刻,确实构成了我们一切探索的起点与原点。
回顾彼时,"具身智能"这一术语的使用频率尚处于较低水平,在大多数场景下业界普遍采用"人形机器人"这一表述。因此在当时的背景下,兴奋与困惑在彼时交织。然而,彼时有两件事的认识是明确的,至今仍未曾改变:
我们坚信,具身智能的未来将呈现出“一脑多形”的丰富图景。在这幅图景中,人形,特别是双足人形,并不会是唯一或必然的形态,而只是众多可能形态中的一种。
第二,具身智能未来的长期壁垒主要源于构建起一个完整且闭环的物理世界数据系统。为了实现这一目标,最为关键的发展路径则在于“整机+智能”这一策略。此后,这同样构成了星海图在整个发展历程中所坚守的核心战略方向。
在2023年的10月,团队有幸获得了首笔融资。当时的投资者包括IDG和百度风投。此后,对“天使投资”的理解逐渐加深,它指的是在创业者尚处初期、认知有限的阶段,便选择信任并投入资本的行为。
2024年,团队正式开启了研发工作。但与大多数专注于具身智能大脑领域的企业有所不同,我们并未从更为熟悉和擅长的智能算法方向着手,而是选择了从整机硬件层面开始进行研发。

在整机形态的选择方面,该团队并未采用彼时更具市场主流性或流行度的双足人形方案,而是开创了轮式双臂这一全新的产品品类。之所以做出这样的决策,是因为自创业伊始至今,团队始终坚持的核心原则在于:针对智能层面的问题,应当围绕智能所具备的能力边界以及实际需求来审视本体应当如何设计,而非盲目地追求某种特定的造型外观。尽管目前团队也推出了一款人形产品,接下来将会详细阐述选择开发双足方案的原因。
2024年,行业内众多企业均在具身智能领域持续投入与探索,星海图亦是其中一员。回顾这段历程,可以认为其选择从整机研发切入是一条具有前瞻性的路径,这一决策在后续发展中显现出了关键价值。进入2025年,团队推出了产品的升级迭代版本,并迅速将市场拓展至全球范围,从而奠定了其作为轮式双臂机器人这一新品类开创者的行业地位。

回顾2025年第一季度,团队在战略规划上做出了多项关键决策。例如,由于从整机研发起步,团队发现制约整机性能的核心瓶颈在于动力模组,因此选择了自主研发动力模组这一路径。随后,团队进一步认识到仅聚焦整机研发存在局限性,需要在资源配置上进行补充与完善。与此同时,团队在数据建设方面形成了明确的认知,相较于当时更为普遍的数采厂模式,团队选择与亦庄合作,采用真实场景进行数据采集的方式。
伴随我们的技术与产品成果得以发布, 于2025年上半年也相继完成了A轮系列的多轮融资交割工作。在该时间节点上,我们创纪录地完成了总计15亿元的融资,囊括了蚂蚁、今日资本、美团、高瓴、凯辉基金、北京机器人产业基金以及亦庄国投等一系列伙伴,它们于该时间节点成为了我们的股东。

时间步入2025年下半年,团队在智能研发领域全面推进各项工作。2025年8月份,也就是在不到一年之前,成功发布了两项重要成果:其一是全球首个大规模开放场景真机数据集GOD;其二是全国首个大规模真机数据预训练模型G0。
这两项成果一经发布,便在开源社区引发了巨大反响。该数据集在约一个月的时间内,全球下载量便接近60万次。这一数字意味着什么呢?考虑到数据集包含约500小时、10TB的数据量,普通个人开发者通常不会下载如此庞大的数据,因此可以判断,这基本上代表了全球机构类型开发者几乎人手一份。G0系列模型自发布以来,引领了国内具身智能基础模型领域的开源浪潮。
智能能力的迭代进程,一旦启动便持续加速。时隔四个月,即2026年1月,首个开箱即用的万物抓取基础模型G0 Plus得以发布。其中特别需要强调的是,团队始终坚持认为具身智能需要具备泛化能力,而关于泛化能力的具体体现,团队设定了一个至关重要的评判标准,即开箱即用性。团队并不希望相关演示仅能在自身的实验室或办公环境中复现,而是致力于让技术在客户的办公场景中也能达成一致的效果。为此,团队邀请了来自新加坡、韩国、美国以及国内外的众多客户进行实地测试,其体验反馈均十分积极。这标志着泛化能力首次真正融入产品体系。
半年之后,具体到2026年6月份,于当月月初,团队正式发布了更新一代的G0.5模型。在这一代模型当中,不仅数据量获得了全面提升,而且模型架构也进行了一系列创新。从而在更多数据和更优算法架构的支撑下,该模型的能力在全球六大榜单上取得了第一名的成绩,稳居国际第一梯队并位列国内首位。
同步于2026年6月,我们还发布了首款双足机器人产品,它被命名为Kengo,目前已在外部的展示区域进行陈列。许多业内人士与关注者感到不解:既然公司此前一直专注于操作智能与面向企业的整机方案,为何又转向开发双足形态并涉足舞蹈演示?这一决策背后的深层逻辑是什么?
鉴于我们认识到,轮式双臂这一产品形态主要适用于任务流程和环境相对固定的结构化场景,而我们的长期目标是为通用场景提供具备实际生产力的解决方案。在通用场景中,非结构化环境构成了一个至关重要的类别,其任务执行往往依赖于类似人类的双足移动与灵巧操作能力,唯有具备人形结构的机器人方能有效应对。因此,在2025年年初,团队做出了开发双足机器人的明确决策。在这款产品中,所有核心动力单元——包括一体化关节模组、精密减速器与驱动电机——均由团队自主设计研发,或与产业链合作伙伴协同攻关而成,这是其技术自主性的重要体现。
随着Kengo的正式发布,星海图现在成功成为了全球唯一一家同时具备顶尖模型与顶尖本体的具身智能企业。在三年前所定下的“整机+智能”战略,于此刻正式实现了闭环。

回顾近年来的发展历程,外界对星海图公司的认知与定位经历了数次转变。在2024年,许多观察者将公司视为硬件制造商。及至2025年,随着公司在数据领域投入资源,外界的标签又转变为数据公司或数据供应商。然而,这些判断均未触及公司的核心。公司所有的战略路径与实践,始终围绕着一个根本目标展开:即驱动具身智能实现其生产力价值,并构建相应的基础模型。正是沿着这条道路,公司于2026年上半年陆续完成了一系列成果发布与融资,最终实现了估值突破200亿元人民币的里程碑,从而在国内具身智能领域确立了引领地位。
时间定格在2026年6月16日,星海图首届开发者大会得以举行。可以预见,本次大会将是该系列活动的第一届,鉴于具身智能行业的发展道路还很漫长,未来将会举办更多、更具规模的后续届次。
在探讨未来发展之前,有必要回归并审视一个更为根本的问题:应当如何界定当下的星海图?公司长期致力于成为何种组织?对此,或许可以尝试用三句话来进行概括。
我们首先是一家专注于构建具身智能大脑的企业。在此,有必要对“具身大脑”这一概念进行明确界定。如何判断所构建的是否属于基础大脑呢?其核心判断标准在于,是否完成了针对具身智能基础模型的预训练工作。这项预训练之所以至关重要,是因为它在发展过程中会赋予我们一种截然不同的规模效应,即“学得越多越聪明”的效应。纵观历史上大部分成熟行业的企业,其规模效应主要来源于“造得越多越便宜”的逻辑。因此,“学得越多越聪明”与“造得越多越便宜”这两者之间的差异,构成了区分人工智能企业与非人工智能企业的一个关键分水岭。
对具身智能本质的理解,即它并非纯粹的软件智能,而是软件与硬件的紧密结合体,这一认知自创立伊始便矢志不渝地坚守。历经多年的发展,这使得在所有专注具身大脑的企业当中,我们形成了最为稳固的整机制造能力与供应链体系。到目前为止,我们百分之八十的动力单元都通过自研或与产业伙伴合作研发的方式得以实现。这一战略方向将被坚定不移地推进。
在具身大脑的技术路径选择上,该公司是国内率先对此做出战略押注的企业。早在2023年创立之初,团队所主张的便是“真实数据是通往未来的至关重要的技术路径”。时至今日,该路径已被全球学界与产业界广泛证实为最具潜力、也最有可能成功通往智能未来的核心技术路径。而在这一关键赛道上,该公司已确立起布局最为全面、规模最大且技术领先的企业地位。最近所发布的G0.5基础模型,便是对此最为有力的证明。
智能:本能、作业、进化

展望未来,讨论首先聚焦于智能领域:具身智能究竟代表何种类型的智能?如何对其进行有效拆解?当前将具身智能解析为三个核心组成部分,即本能智能、作业智能以及进化智能。
本能智能,是直接作用于机器人本体结构的功能。它在概念上类似于赋予机器人对其自身身体的自主控制能力,如同人类个体天生便具备保持平衡、行走、奔跑与跳跃的能力,无需经历冗长的外部教学过程。
在本能智能的基础之上,作业智能的重要性更为突出。之所以对作业智能给予特别强调,是因为具身智能对人类社会所承担的核心使命在于提供生产力。生产力的实现必然依赖于一个有序的作业过程,而为了成功完成这一有序过程,调动模型的接口必须采用语言形式。因此,语言接口需要作为主要方式来持续完成任务。自去年8月起,G系列模型便将作业智能确立为重点发展的核心主线方向。

展望未来,当前AI的身体仍然由人类工程师负责设计——基于对智能边界的理解,工程师们认识到轮式双臂产品能够满足特定任务需求,因此设计了这一形态;同时,由于人类本身采用双足人形结构,所以也为机器人设计了类似的双足形态。然而,未来的发展将不会延续这一模式。未来,AI将能够自主定义和设计其自身的身体结构,这一过程被称为进化智能。人类的身体结构是自然界与基因在数千万年间相互作用并进化迭代的产物,而未来的这种迭代进化过程将由AI所取代。AI将基于具体的应用场景和需要执行的任务,来设计一个更加优化的身体形态。
从整机维度来看,整机构成了智能发展的根本基础。公司之所以长期将"整机+智能"确立为核心战略,其根本原因在于整机本身承担着双重角色——它既是数据的承载载体,同时也充当着商品的流通载体。
我尝试做一个类比:大语言模型的兴起,很大程度上得益于两个先天优势。其一,是互联网已经将人类活动产生的文本与逻辑数据完成了数字化沉淀,这些构成了模型训练的庞大现成语料库。其二,我们每个人手中的智能手机、个人电脑,这些已普及的终端设备,恰好成为了承载和运行大语言模型理想的载体。然而,对于具身智能而言,这两个关键前提都不复存在:物理世界的行为数据远未被系统性地数字化记录,也缺乏一个如通用计算机般现成的、能够承载具身智能技术表达与进化所需的标准化载体。正因如此,从创立的第一天起,团队就将整机硬件的研发与构建,置于了核心战略位置。
推动整个具身智能行业持续向前发展的核心动力,是AI领域所遵循的规模法则(Scaling Law)。因此,我们必须以规模法则的思维框架,来审视整机硬件应如何演进。这也正是为何自创立之初,公司便确立了“智能定义本体”这一核心原则。时至今日,公司已成功构建了包括轮式双臂、单臂以及双足在内的多元化产品矩阵。在轮式双臂品类中,公司确立了引领者地位;而在双足品类中,公司目前仍处于追赶阶段。然而,公司坚信凭借对AI这一核心驱动力的把握,未来能够在所有品类上取得领先地位。公司本身并非一家传统的机器人研发制造企业,而是一家以人工智能为本质的公司;同样,这个行业也并非传统的研发制造型行业,而是属于人工智能的范畴。正是基于这一认知,公司对未来在整机领域取得更优异的成绩充满信心。
在推进整机研发的过程中,自2025年起逐渐形成了新的认识——仅聚焦于整机层面是不够的,因为其底层遵循着"智能定义本体,而本体定义动力模组"的逻辑链条。动力模组对于整机的重要性体现在几个方面:首先,模型的最终表现往往取决于动力单元的性能——例如齿轮背隙的大小,会直接影响模型输出效果的好坏。其次,从整机的BOM成本结构来看,动力模组在未来三到五年内预计将维持在40%至45%的比例。因此,团队较早便做出了需要深入自主研发动力模组的决策。在推进过程中,进一步发现了行业当中存在的空白——由于整个行业尚未形成动力模组的标准体系。标准缺失的根本原因在于模型本身仍处于演进阶段。这便构成了"智能定义本体,本体定义模组"的完整逻辑。在这一进程中,同样期待能够与产业链的合作伙伴共同参与标准的制定工作,以推动产业的整体发展。

整机与数据:智能定义本体
数据方面的情况,则需要单独进行阐述。当前,数据已成为整个行业普遍认同的、制约具身智能发展的核心瓶颈因素。在过去几年中,即2024年至2025年期间,行业整体的数据积累规模大体维持在数千至数十万小时的量级,即便其中体量最大的数据集也基本处于这一区间。而到了今年,行业内的领先企业已经将数据规模提升至百万小时量级,根据当前的发展趋势判断,在未来两到三年内,这一规模有可能进一步增长至千万小时的量级。
关于百万小时乃至千万小时的具身数据,其蕴含的意义究竟为何?可以尝试通过类比来阐释。一个人类个体自出生至成年,其清醒状态下与物理世界进行交互的总时长,大致在十万小时量级。这意味着,人类的大脑正是借助这十万小时的持续交互,才逐步掌握对自身躯体的精准控制。按照此比例推算,一百万小时约相当于8.3个人类个体的学习总时长,而一千万小时则相当于约83个人。另一个可供参照的维度是,当今以GPT为代表的大语言模型所训练的Token总量,若将其等效换算至具身基础模型的训练小时数,其规模恰好处于百万至千万小时区间。这解释了为何我们坚信,正是在百万小时到千万小时这一数据量级上训练出的具身基础模型,将为我们带来突破性的质变。
在数据领域中,坚持采用真实数据。真实数据本身形成了一个金字塔结构:从最顶尖、最重要也是最难获取的以机器本体为中心的真机数据(Robot-Centric Data),再到以人类为中心的数据采集(Human-Centric Data)。此外,过去行业一直关注中国在硬件和零部件供应链方面的优势,然而从今年开始,数据供应链上的优势也会逐渐凸显。数据工程链的优势与整机供应链的优势相结合,将决定在未来两到三年内,中国整个具身基础模型的能力超越美国,并占据世界第一的位置。对此,具有充分的信心。
从开发者到生产力

在通往这个未来的过程当中,应用是随着智能的逐步成熟与落地的过程,而逐步发生与拓展的。这个伴随智能成熟而逐步推进的过程,被总结为“从开发者到生产力”,并自进入市场的2024年起,便作为核心主线而确立。这一发展路径的背后,实质上映射了技术从不成熟状态迈向成熟状态的演进过程。
在过去的时期,公司为几百家机构开发者提供了服务,其中包括学术型、企业研究型以及创业公司。今年,公司同样发现了个人开发者的潜力,并期望在未来,人人都能以类似玩转3D打印机的方式来运用具身智能技术。因此,今年公司将面向个人开发者推出一系列新产品,从而真正释放社区的力量。
关于全球范围内具身智能应用的案例,公司已积累了丰富的实践基础。以斯坦福大学李飞飞实验室为例,自2024年起双方便开展了一系列聚焦于基础研究的学术合作。英伟达与公司的合作,则主要用于验证异构数据在模型训练中的有效性。此外,诸如REMY与SERVO7等源自美国Y Combinator孵化器的企业,已将其产品应用于仓储物流与物料搬运等实际场景。在欧洲,合作网络已延伸至零售等商业领域,同时还覆盖了日本与韩国市场的客户。综合来看,具身智能的全球应用版图正在加速拓展。
来源:WDC 2026|高继扬:从开发者到生产力,具身智能的三重跃迁 | OFweek机器人网