图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心
近日下午,国际人工智能领域顶级学者、被誉为“强化学习之父”的Richard Sutton教授专程莅临北京人形机器人创新中心(以下称为北京人形)开展了参访交流活动。北京人形CEO熊友军与COO李春枝带领核心管理团队对Sutton教授一行进行了热情接待,双方就具身智能领域的前沿技术以及产业未来方面开展了深入探讨。陪同Sutton教授前来参访的还有他山科技核心管理团队。作为北京人形的全面战略合作伙伴,他山科技正与北京人形以及Sutton教授的openmind团队合作共建“机器人幼儿园”项目。
大咖介绍:图灵奖获得者、强化学习领域的奠基人

理查德·S·萨顿教授是2024年ACM A.M.图灵奖获得者,他与安德鲁·G·巴托教授共同获奖,正是为了表彰他们在强化学习领域所成功奠定的概念框架以及算法基础。作为该领域公认的奠基人,萨顿教授借助长期系统研究得以提出时序差分学习以及策略梯度方法等核心技术,并且他与巴托合著的《强化学习:导论》一书也得以成为全球研究者所依赖的经典教材。萨顿教授现任阿尔伯塔大学计算机科学教授、Amii研究员以及Keen Technologies研究科学家,他所提出的The Bitter Lesson观点以计算规模和通用方法为基础,对人工智能长期发展方向开展了深刻影响。
在本次参访活动中,萨顿教授与北京人形机器人创新中心管理团队开展了深入交流,他借助openmind团队以及他山科技的战略合作关系,共同推进机器人幼儿园项目得以在具身智能领域实现从理论到实践的落地转化。
Richard Sutton教授是强化学习领域的奠基人之一,他现任加拿大阿尔伯塔大学计算机科学教授,并且担任阿尔伯塔机器智能研究所(Amii)首席科学顾问。他于1984年在马萨诸塞大学阿默斯特分校获得了博士学位,与导师Andrew Barto合著的《Reinforcement Learning: An Introduction》成为了该领域最权威的教科书。Sutton教授提出了时间差分学习(Temporal Difference Learning)、Sarsa算法等核心理论,从而为现代强化学习奠定了数学基础。2019年,他发表了著名文章《The Bitter Lesson》,其中深刻指出了人工智能发展应当优先利用计算能力而非人类知识表示,这一观点对深度学习以及大模型的发展方向产生了深远的影响。

Sutton教授一行首先对北京人形机器人创新中心展厅开展了参观活动。本次参访的一大亮点在于,天工3.0全尺寸人形机器人担任了展厅讲解员的角色,为参访团提供了全程的导览讲解服务,从而得以充分展现创新中心无人化展厅所具备的技术特色。在讲解的过程当中,天工3.0现场演示了多种高难度的动作,其所展现出的出色运动控制能力让Sutton教授深感惊叹,这也充分体现了北京人形团队在运控领域方面所积累的深厚技术实力。
随后,Sutton教授近距离观摩了“天工”通用人形机器人平台在物流分拣场景中所开展的实际应用演示,以及“天轶”机器人在家庭场景中所进行的落地展示。这些真实场景中所呈现的稳定表现,获得了Sutton教授的高度赞赏。此外,小人形机器人Omni在现场展示了多模态灵活切换与低矮空间顺畅通过的技术成果,展现了其在复杂环境下所具备的卓越适应性。
参观期间,Sutton教授对北京人形自研关节模组展现出了浓厚兴趣。在对相关技术参数以及设计理念开展了详细了解之后,他对创新中心在关键零部件上所具备的全链条自研能力表示由衷赞叹,认为这一能力对于推动人形机器人产业实现自主可控发展具有重要战略意义。

Sutton教授还对「慧思开物」通用具身智能平台的最新研究成果开展了深入了解。作为创新中心重点打造的具身智能操作系统,「慧思开物」平台融合了多模态感知、大模型推理以及实时决策能力,从而可以为各类机器人提供通用的智能大脑。Sutton教授对平台在跨场景任务泛化、人机协作等方面的技术突破表现出了浓厚兴趣,并就平台架构设计与技术团队开展了现场交流。
聊干货|和 Sutton畅聊具身智能那些事儿
After the exhibition hall tour, Professor Sutton and his delegation held a friendly and in-depth discussion with the core team of the innovation center. Professor Sutton pointed out that artificial intelligence is currently evolving from “static data-driven” approaches toward “dynamic environmental interaction,” where embodied intelligence serves as the essential pathway for achieving true general artificial intelligence. He emphasized that the deep integration of reinforcement learning with embodied intelligence will constitute a vital direction for future technological breakthroughs, noting that robots must learn through sustained interaction in real-world environments so as to gradually accumulate a profound understanding of causal relationships in the world.

This perspective aligns closely with Sutton’s long-standing views in “The Bitter Lesson,” which prioritizes scalable computation and experiential learning over hand-engineered knowledge. The discussion reinforced the strategic goals of the “Robot Kindergarten” project, which aims to create safe, rich physical environments in which humanoid robots can develop foundational intelligence through continuous trial, error, and interaction—much like children acquiring causal understanding of the world.
围绕工业场景中的强化学习应用,双方重点对离线到在线学习系统的构建开展了探讨。Sutton教授指出,在工厂等场景中实现高成功率需要进行大量在线探索,而核心挑战在于如何将单一任务所习得的知识迁移至相似工业任务。他认为,迁移学习的本质在于表征(Representation),正如人类凭借对世界的良好表征来灵活操作各类物体那样,机器人也需要构建通用的世界表征。
针对机器人在从头开始训练过程中所面临的安全顾虑,Sutton教授与创新中心团队开展了深入交流并对安全学习策略进行了探讨。他提出,可以借助调整动作空间、设置安全测试环境或者选用辅助支撑装置等方式,来确保机器人在探索过程当中避免遭遇不确定的风险。这一思路与北京人形以及他山科技正在共同推进的“机器人幼儿园计划”高度契合,该计划旨在构建能够长期自主运行并且持续进行自我学习的智能体,而人形机器人将会作为长期规划的重要组成部分。

在谈及AI未来发展之时,Sutton教授表示,当前对AI所产生的过度担忧往往会被特定利益所放大处理。从历史规律方面来看,技术进步虽然会在短期内对就业结构进行改变,但长期必将会推动人类迈向更强大的新阶段,AI的发展最终将是积极的。
谋战略|和Sutton教授共建"机器人幼儿园"

萨顿教授的到访对于创新中心而言具备了重要意义。北京人形机器人创新中心始终秉持开放创新的理念,积极对接全球顶尖学术资源,从而推动产学研实现了深度融合。此次交流不仅为团队带来了国际前沿的学术视野,而且也为双方未来在技术研发以及人才培养等方面的合作奠定了坚实基础。
北京人形机器人创新中心将以此次交流为契机,持续深化国际合作方面的工作,汇聚全球智慧力量,加速对“具身天工”以及“慧思开物”等核心平台进行迭代升级,为中国乃至全球具身智能产业的发展贡献更多创新力量。
让机器人得以拥有真正的智能,从而让人工智能成功走进真实世界。
此愿景驱动着具身智能的实践探索,通过“机器人幼儿园”项目与强化学习奠基人Richard Sutton教授的合作,在安全丰富的物理环境中,让人形机器人像孩子一样借助持续试错与交互逐步构建世界因果表征,实现从理论到真实世界应用的转化。
来源:图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心 | 具身研习社