百人数字世界同台舞剧 中国企业创造世界新纪录
当100位舞者同时进行跳动时,其身上共计分布有5300个Marker点。76台具备2600万像素分辨率的光学动捕相机,必须以每秒120帧的速度进行快门取像。由此产生的庞大数据洪流会涌入AMD 64核处理器当中,并最终映射到现场大屏的数字空间进行实时展示。其中,每一帧的处理时间窗口仅限8.3毫秒。
2026年5月31日,在上海青瞳视觉MCP无界棚内,100名动捕演员成功地完成了这场百人实时动作捕捉挑战。在上海市新虹桥公证处进行了全程官方认证以及证据保全之后,现场爆发出了经久不息的热烈掌声。
机器人大讲堂方面了解到,此前在国际范围内获得公开认证的最高纪录为19人,而国内纪录则为41人。此次挑战所达到的百人规模,相当于国内原有纪录的2.5倍。这意味着,自该日起,全球百人以上规模实时动作捕捉的技术门槛,已被中国正式跨越。同时,这背后恰恰反映了青瞳视觉作为国内动作捕捉领域的头部企业,对光学动作捕捉技术工业化天花板所进行的一次真实探索:硬件算力、系统架构与算法优化这三块木板所拼成的技术木桶,如今究竟能承载多少容量?

一个关于“迷宫”的比喻

光学动作捕捉的工作原理并不复杂,相机发射出的红外光照射在人体表面所贴附的Marker点之上,经反射后被相机所捕捉,以获取相应的二维坐标,再借助三角定位方法将其还原为三维空间位置,最终生成骨骼动画。但原理虽然简单,工程层面却极其折磨人。
步入那间面积达1000平方米的动捕棚内,最为直观的感受便是全场范围内相机的分布密度。青瞳视觉CEO张海威说得更为直白:"从40人到100人,数量提高了两倍有余,相机也从28台增加至76台,听起来参数的变化并不算大,但其背后却是一个呈指数级爆炸增长的NP问题。"这不仅仅是因为需要76台K26光学动作捕捉相机对整个空间进行均匀覆盖,更意味着每台相机每秒将会产生约72MB的原始数据,整套系统每秒则需要处理约720万个二维图像点。这已不再是一个简单的线性增长问题,而更像是技术层面所实现的一次长足跨越。
一位熟悉该技术的人士曾向机器人大讲堂进行了这样的描述:“Marker点就像灯泡,相机就像眼睛。当人数增加到上百人同时活动时,灯泡与灯泡之间会产生相互遮挡,身份识别就会开始出错。”更为棘手的则是串位问题,系统可能会将A身上的Marker误判给B,进而把两个人的骨骼数据混合在一起进行重组,最终呈现出的画面就如同两个人被拧成了一团麻花。
这一问题的难点在于,其难度并非随人数增加而呈线性增长,而是呈现出几何级的急剧上升。当百人同时运动时,其身上共计分布有5300个Marker点,每一个点都必须被76台相机的视野同时捕捉,经过交叉比对与三角定位,才能最终还原为三维空间坐标。每新增一位参与者,并不仅仅是简单增加53个数据点,更是为整个系统引入了一个全新的计算变量。当单个Marker点被遮挡时,尚可由相邻相机进行补位识别;但若多人同时发生遮挡,其变量的组合方式便会呈指数级增长,导致实际所需的运算复杂度远超先前。
张海威曾用一个比喻来对此进行了更为形象的阐释。他认为,单个相机的视野内总是会同时捕捉到两三千个标记点。我们不妨将每一台相机都想象成一座迷宫。整个系统是由七十多层这样的迷宫叠加而成,而每一层迷宫内部都存在着两三千个需要辨别的岔路口。当从第一个相机所对应的迷宫中识别并选定一个点后,便需要进入相邻的下一台相机所构成的迷宫,并在其中再次面对两三千个可能的匹配点,以此完成点与点之间的对应与连接。
从理论角度分析,19人时系统出错的概率尚处于可接受范围,但人数增至41人时便开始出现频繁的丢帧现象,而当人数达到100人时,任何一个步骤的超时都会导致整帧数据作废。青瞳视觉技术负责人在接受采访时曾进行过测算,系统每秒需要解算处理60万个三维点,任何一步若多耗费0.1毫秒,该帧数据便会失效。

更大的挑战体现在时间维度方面。120fps的高帧率,直接决定了每帧图像的完整处理时间窗口仅有8.33毫秒。只有将每一帧的处理严格控制在8毫秒以内,最终输出画面的视觉表现才会具备所需的稳定性以及流畅度。延迟过高所引发的后果,远不止于简单的画面卡顿。一方面,高延迟会导致类似VR体验中的眩晕感;而更重要的是,它会引发整个系统的堵塞。虽然短期的帧间延迟尚在可接受范围内,但如果延迟持续累积,导致一帧帧的数据处理不断滞后,那么计算资源便会愈发拥挤。一旦上一帧的处理消耗了10毫秒,留给下一帧的时间就只剩下6毫秒,这种时间预算会被不断压缩,最终导致整个处理流程的迅速塌缩。
02.
物理世界的盲区,AI开始来填
当100位舞者在动捕棚内同时进行移动、舞蹈与交互时,人物之间的交叉与叠合便成为常态,由此引发的相互遮挡也成为了一种不可避免的物理现实。随之而来的问题是,当某一台相机的视野被其他人物完全遮挡时,其试图捕捉的那个Marker点在物理上便不可见了。传统的解决方案是依赖多台相机进行交叉补位,然而,如果同一个Marker点被连续遮挡的时长超过两三帧,其三维位置便会发生飘移,进而导致整套骨骼动画的还原出现错误。
青瞳视觉所采取的解决办法是,研发了一套独特的AI解算管线,专门用于处理这一问题。他们意识到,相机在捕捉过程中虽然面临大量遮挡情况,但可以借助AI来解算动作、还原动作。尽管在物理层面相机因被遮挡而无法完成解算,但在3D还原阶段,可以运用AI把因遮挡而丢失的点给还原出来。
张海威介绍,这并非类似图像处理中那种简单的补帧,而是基于骨骼运动学约束所实现的语义级重建。由于AI系统预先学习了53个Marker点之间的关联约束关系,掌握了人体关节活动范围的极限数据,并且能够结合上一合法帧的姿态与下一合法帧的姿态,推算出在缺失的这几十毫秒内最可能的运动轨迹,因此能够对被遮挡的点进行语义级还原,并依据人体运动规律的推断完成重建。这条AI解算管线,是百人规模动作捕捉得以成立的关键技术前提之一,也代表了AI技术目前在动作捕捉领域最具力度的实现方案。
03.

硬件冗余是唯一的解题思路
在捕捉与解耦问题得到解决之后,算力便成为了横亘在前的另一道门槛。当百人同时进行运动时,Marker点所涉及的数据量呈爆炸式增长,然而系统却必须在仅有8毫秒的单帧处理窗口之内,完成从二维点提取、Marker匹配、三角定位到骨骼重构、CGI渲染的全部流程,其中任何一个步骤出现超时,都意味着当前这一帧将被直接丢弃,进而导致画面出现撕裂或卡顿现象。
机器人大讲堂方面获悉,本次百人动捕挑战的算力底座,是一台搭载了AMD 64核Threadripper PRO 9985WX处理器的工作站,并搭配了一块Radeon RX 9070 XT显卡(拥有16GB显存)。从表面看,所采用的产品规格似乎并不算特别高,但AMD渠道FAE高级经理焦健庭在现场解释了此次挑战的数据规模:共计超过5300个标记点,最终需要同时并行处理6万多条数据,并且这一切都必须在严格的低延迟约束下,完成三维重建、实时结算以及渲染输出。然而,AMD团队发现,这一工作负载对CPU构成了极大压力,而GPU方面的负载则相对较轻。考虑到实际落地应用的合理性与成本效益,团队决定选用一款消费级的9070 XT显卡来承担渲染输出任务,最终发现其性能完全能够满足要求。
其优势在很大程度上得益于AMD处理器所采用的全大核设计,这与当前市场上存在的大小核异构架构形成了鲜明对比。在张海威看来,AMD的全大核架构在这一应用场景中所展现出的稳定性,正是源于其架构层面的先天优势:在对实时性要求极高的动捕运算中,大小核异构架构很难确保每一帧渲染的延迟都处于可控范围之内,这会给线程调度带来更多的复杂性与不确定性。由于不存在大小核之间的差异性调度问题,AMD全大核架构能够保证每一帧的延迟均保持稳定与可控,有效避免了因线程在不同类型核心间迁移而产生的未知等待。
此外,机器人大讲堂获悉,双方团队还借助对BIOS配置、线程调度以及数据通路的协同优化,在软件侧算法效率得到提升的基础之上,实现了系统整体性能大约20%的提升,并且显著降低了运行延迟,能够做到持续稳定数十分钟的高频工作。最终实现了在百人规模下毫秒级的稳定运行,满足了高帧率以及高动态捕捉方面的应用需求,最终让科技与艺术实现了协同,并把技术挑战转化成为了可观看的数字动作。

在此过程中,CPU与GPU分别承担着截然不同的工作角色。焦健庭将GPU的工作描述为"干重活、干粗活",即把最终重建结算得出的数据渲染到屏幕上。而CPU则负责最为精细的工作,53个Marker点各自对应着53段骨骼,每段骨骼所呈现出的动作均存在细腻的差异,需要对其进行实时采集、精准重建以及逐帧结算,唯有64核全大核的设计才能在毫秒之内完成如此庞大规模的并行计算,同时有效避免线程调度方面所产生的抖动。
AMD的这一做法进一步表明,降低复杂度的目标,完全可以通过采用更为精巧的算法来实现,而非依赖于单纯堆叠更强大的硬件。借助设置层面的优化,使处理器得以稳定且充分地发挥其潜能,同时让算法更适合于多线程并行运算,最终也能达到殊途同归的效果。

这一逻辑的背面在于,硬件始终存在上限,而算法则不然。一个必须依赖定制顶级硬件才能跑通的方案,永远无法实现规模化;相反,一个在商业硬件上通过算法逼近极限的方案,才具有真正的商业价值。
然而这三个维度,最终指向的是共同的目标,那就是让那8.3毫秒能够成为一条恒定可靠的输出曲线,而非忽高忽低、起伏不定的抖动波形。
04.
人和机器人的三个差异
动捕棚的另一端则连接着具身智能产业。张海威在采访当中提到了遥操作背后的技术现实。由于人与机器人之间存在着三个根本性的差异:其一是肢体比例与结构有所不同,其二是关节活动度方面存在差异——人类依赖于肌肉与骨骼来完成驱动,而机器人则依靠电机进行驱动;其三则是重量分布以及脚底摩擦系数方面也有所不同。若要将人类的动作迁移至机器人身上,便需要解决re-targeting这一问题,也就是让机器人做出"神似"而非"相同"的动作表现,同时还要满足机器人关节限位方面的约束,并且在实时运行过程中保持平衡以避免摔倒。
这一过程具有双重价值。在当前阶段,机器人的自主能力尚显不足,因此可以借助遥操作技术,直接实现对其工作的远程操控;与此同时,在操控过程中所产生的“操控-响应”数据对,能够成为训练机器人自主执行同类任务的珍贵素材。
这恰恰意味着,动捕棚正在从内容生产工具向数据生产工具进行转变,其所产出的并非传统的视频内容,而是用于机器人训练的数据素材。与此同时,百人规模同步采集的能力,直接把数据采集的效率门槛从原有的5人规模提升至50人之多。
从表面来看,百人同时在场进行动捕,似乎仅仅是一个规模层面的问题,但张海威则更倾向于将其描述为一个效率问题。“我们成功将系统的计算复杂度降低了超过三倍。系统计算的复杂度越高,所需要的算力就越大,其整体可靠性也会随之下降。只有降低了复杂度,这项技术才能被应用到更为复杂的场景之中,例如大规模的遥操作以及大规模的数据采集工作。”他对此进行了说明。

因此,张海威特意强调,本次百人动捕所采用的软硬件,均为经过正常渠道出货的商业版本,而非为此次挑战活动所特别定制的版本。这绝非一句场面话。在各类技术挑战活动中,定制化的演示方案与能够实现规模化量产的通用方案之间,存在着一道明确的工程鸿沟。前者意味着在技术层面上是可行的,后者则意味着用户购买后即可直接投入使用。
05.
扩展无限场景可能性
此次百人规模实时动捕挑战的成功完成,其价值并不仅限于实现了更多人同时参与捕捉。在技术层面,它标志着这套大规模、高并发的实时动作捕捉系统,已经具备了面向更广阔空间、更高并发量以及更复杂交互场景进行工程化处理的综合能力,是从实验室验证走向工业化应用的关键一步。
对于数字内容产业而言,大规模实时动捕得以应用到群体动画、虚拟制作、数字演出、虚拟演唱会、影视战争场景以及体育赛事可视化等复杂内容生产场景当中。例如,虚拟偶像能够开展30人乃至50人团体规模的直播综艺,从而显著提升群体动作采集效率与动作真实感。
对于具身智能与机器人产业而言,百人级实时动捕能力的实现,同样意味着更大规模、更为复杂的真实世界动作数据得以被稳定地采集并同步处理,使得数据采集效率实现了倍增。这类数据可以运用于机器人遥操作、人形机器人动作学习、多主体协作行为研究以及具身智能数据集建设等多个方向,为机器人从"模仿单个动作"迈向"理解复杂人类行为与群体协作"提供了更为丰富的数据基础。
在科研测量、工程验证以及智能交互等多种场景当中,大空间、多目标、低延迟的实时动作捕捉能力,也可以进一步为无人系统集群测试、人机协同实验、运动科学分析、沉浸式交互体验以及复杂系统仿真等应用提供支持。因此,百人级实时动作捕捉不仅仅是一次视觉化呈现的技术挑战,更是一次面向未来数字内容生产、智能系统训练以及真实世界动作数据基础设施建设的系统能力综合验证。
在采访的最后阶段,张海威与焦健庭共同谈及了一个关于未来发展的注脚。"下一步可以将GPU也充分利用起来,实现实时生成,做到在捕捉的同时进行生成,把后续的应用流程也一并整合进去。"在目前的百人挑战当中,GPU主要承担渲染输出的工作,而CPU则扛住了核心计算的重担。然而GPU的并行算力方面还存在着大量富余,那块Radeon RX 9070 XT所配备的16GB显存仅使用了其中"一小部分"。真正的下一代应用场景在于,捕捉的同时实现实时生成,做到边跳边渲染、边采集边训练,而这将会让人机交互迈入一个全新的台阶。

06.
结语与未来
回顾中国动作捕捉产业的发展轨迹,从早期对进口设备的高度依赖、受制于他人所制定的性能天花板,到如今于百人实时动捕这一全球范围内尚无先例的领域当中插上属于自己的旗帜,青瞳视觉所完成的这场挑战,本质上是中国动捕从"国产替代"迈向"全球领跑"的一个真实缩影。
从过去强调追赶先进水平,到如今致力于界定技术前沿的可行边界,中国团队在8毫秒这一严苛的时间窗口内攻克了最为艰难的技术瓶颈。这标志着其已掌握在极限复杂度条件下,定义动捕系统架构、调度算力以及融合AI的全流程工程能力的主导权。
从追赶至并行,再从并行迈向引领,这条发展道路上的首个百人规模里程碑,最终在青瞳视觉MCP无界棚内得以落定,这也使得指数级复杂度的技术攻坚,正式跨越了其中最为陡峭的坡段。
来源:独家丨百人数字世界同台舞剧!这家中国企业创造世界新纪录 | 机器人大讲堂