专访中国传媒大学杨琳琳:从三维视觉到模型轻量化,青年学者观察具身智能
作者:赵鹏程 编辑:晋芳博 出品方:机器人产业应用
当关于具身智能的探讨聚焦于大模型技术路线与人形机器人实体本身时,另有两项基础技术正在悄然界定该行业的实际上限,那就是三维机器视觉与模型轻量化。前者从根本上决定了机器人视觉感知的精准度,而后者则直接影响了其运行与决策的稳定性。
杨琳琳,作为中国传媒大学助理教授,在三维机器视觉与模型轻量化这两个领域中深耕,成为了该方向的资深研究者。 从北京航空航天大学自动化专业本科阶段踏入了人工智能领域开始,到德国波恩大学攻读博士学位并深耕于三维手部姿态估计,再到新加坡博士后工作期间拓展了轻量化与具身智能方向,他的学术路径始终沿着“交叉”与“落地”这两条主线延伸。
选择入职中国传媒大学,是他经过审慎考量后作出的决定:旨在能够依托学校在文化、艺术与技术交叉融合方面的独特氛围,并得以在这所拥有国家级重点实验室的院校里,沉心静气地开展更具前瞻性的研究工作。在他看来,担任教职的最大优势在于它所蕴含的无限可能性,既可以深耕于科学研究,也能够探索技术在产业中的实际应用,同时还能够投身于科普教育事业。
近日,【机器人产业应用】对杨琳琳教授进行了专访,内容涵盖了从三维视觉的底层逻辑到模型轻量化所具备的产业价值。同时,面对正值高考志愿填报季与毕业季的年轻人,我们也向这位来自一线的研究者请教并转达了他真诚的建议。
当当前关于具身智能的探讨主要集中于大模型技术路线以及人形机器人实体本身时,另有两项基础技术正在悄然界定着该行业的实际上际边界,那就是三维机器视觉与模型轻量化。
杨琳琳,作为中国传媒大学的助理教授,在三维机器视觉与模型轻量化这两个方向上持续深耕,已成为该领域内一位资深的研究者。其学术生涯始于北京航空航天大学自动化专业的本科阶段,在此期间他步入了人工智能领域;随后,他远赴德国波恩大学攻读博士学位,专注于三维手部姿态估计的研究;在新加坡从事博士后工作期间,他则进一步拓展了在模型轻量化与具身智能方面的探索。纵观其学术路径,始终沿着“学科交叉”与“技术落地”这两条主线不断延伸。
选择入职中国传媒大学,是他审慎考量后的决定。这一选择旨在依托该校在文化、艺术与技术交叉融合方面的独特学术氛围,并得以在这所拥有国家级重点实验室的院校里,潜心开展更具前瞻性的研究工作。在他看来,担任教职的最大优势在于它所具备的多种可能性:既能够深耕于科学研究,也能够探索技术在产业中的实际应用,同时还能够投身于面向公众的科普教育事业。

01
三维机器视觉与模型轻量化:为机器人构建精准感知与高效决策的基石

当前,关于具身智能的讨论焦点往往集中于大模型的技术路径与人形机器人的实体形态。然而,有两项基础性技术正在幕后悄然界定着整个行业的发展上限,它们便是三维机器视觉与模型轻量化。前者从源头上决定了机器人视觉感知的精确程度,而后者则直接关系到其运行过程与决策机制的稳定性。
杨琳琳博士,现任中国传媒大学助理教授,在上述两个前沿方向上开展了持续且深入的研究工作,已成为该领域内一位具有扎实积累的学者。他的学术征程始于北京航空航天大学自动化专业的本科阶段,正是在那里,他正式踏入了人工智能的广阔领域。随后,他前往德国波恩大学攻读博士学位,并将研究重心专注于三维手部姿态估计这一具体课题。在新加坡从事博士后研究期间,他的研究视野得以进一步拓宽,开始在模型轻量化与具身智能等关联方向上进行探索。纵观其整体学术路径,始终清晰地贯穿着“学科交叉融合”与“推动技术落地”这两条核心主线。
选择加入中国传媒大学,是他在综合考量后作出的慎重决定。这一选择旨在依托该校在文化、艺术与技术交叉融合方面所形成的独特学术氛围,并能够在这所拥有国家级重点实验室的平台上,沉心静气地开展更具前瞻性的科学研究。在他个人看来,高校教职所具备的最大优势在于其蕴含的多重可能性:研究者不仅可以深耕于前沿科学问题,也能够积极探索技术在具体产业场景中的应用价值,同时还能够投身于面向公众的知识传播与科普教育工作。
在具身智能所依托的技术体系之中,感知环节为机器人进行各项决策与执行动作提供了必要前提,而三维机器视觉技术则是感知端得以正常运作所依赖的核心支柱。
对于三维视觉,许多人最初的朴素认知是“在二维信息的基础上额外增加了深度信息”,这一理解,实际上恰恰精准地揭示了二者最核心的本质差异。杨琳琳对此解释道,人类所感知到的真实世界,其实是一个包含了时间维度的四维信息空间,当这一完整的场景借助透视投影的方式被呈现到平面的屏幕之上时,深度信息在这个不可逆的投影转换过程中便丢失了。由此便产生了一个二维视觉无法从根本上彻底解决的问题,即深度歧义。
他提供了一个具有典范意义的案例:当一只鸽子从镜头前飞过,而一个人站立在远处时,在二维图像中,鸽子的投影尺寸可能显著超过后者,仅仅依赖平面像素信息,无法准确判断物体的真实尺度与空间距离。而三维视觉技术的核心价值,正在于精确还原投影过程中不可逆丢失的空间深度信息,从而使机器能够获得类似于人眼的深度感知能力。
在许多情形下,人们借助2D图像同样能够反推三维信息,其依据在于先验知识的支撑——例如,默认鸽子的体型一定小于人类,从而可以反推距离。然而,先验知识并不总是可靠,在陌生的场景中就可能会失效。在他看来,三维视觉的核心任务正是有效地探索和利用先验知识,使得机器能够准确估计真实的空间坐标与物体结构信息。
他的博士研究方向——手部表面重建与姿态估计(Hand Mesh Recovery and Pose Estimation),恰好属于三维视觉领域当中的一个垂直细分方向。这项技术最初的落地应用场景主要集中在VR/AR设备方面:借助视觉手段来识别手部的三维位姿信息,从而能够实现无需手柄操控的沉浸式交互体验,对精度方面的要求极高。而随着具身智能概念的逐步兴起,这项技术也随之自然地延伸到了机器人灵巧手领域——机器人若要精准地抓取物体并完成复杂操作任务,其本质上与人手的交互逻辑保持着高度的一致性,在此过程中位姿估计方面所存在的误差会直接导致整个任务的失败。
在具身智能的技术体系当中,三维视觉所具备的价值远远超越了基础的“视觉捕捉”功能。杨琳琳指出,三维感知为机器人与环境的交互奠定了基础:无论是工厂中执行拧螺丝任务的工业机械臂,还是家庭环境里负责整理桌面的服务型机器人,都首先需要感知空间当中物体的分布情况,准确判断距离与位置信息,进而才能规划出合理的移动路径与操作策略。其中,第一人称视角的动态视觉感知,以及面向动态场景的三维重建技术,构成了机器人顺利完成各类交互任务的必要前提。可以说,在缺乏空间感知的状态下,机器人就如同闭着眼睛在工作,即便具备再强大的决策智能,也将无从施展。

02
模型轻量化:实现具身智能产业落地的核心课题
如果说三维视觉致力于解决机器人在感知层面"看得准"的核心问题,那么模型轻量化则着重解决机器人在运行层面所面临的"跑得动、反应快、续航久"等实际效能问题。
杨琳琳的另一核心研究方向聚焦于模型量化。他对此解释道,深度学习模型在训练阶段为了更好地拟合数据,往往会被设计得规模十分庞大,其权重参数中蕴含着大量的冗余信息;而轻量化技术的核心目标,即在模型性能得以基本满足要求的前提下,尽可能缩减模型的存储规模与运算需求,从而使其能够在计算资源受限的设备平台上保持稳定运行。
模型量化从直观层面来看,其核心过程在于将原本采用的32bit或16bit的权重与激活等数据进行压缩处理,使其精度降低至8bit、4bit乃至1bit,从而借助于降低信息表征精度的方式来实现对模型体积的极致缩减。
在他看来,模型轻量化技术对于推动具身智能产业落地所具备的核心价值,主要体现在以下四个维度:
首要任务是降低功耗,由于机器人的电池容量存在限制,功耗会直接决定其续航时长。例如,能够连续工作8小时与仅能工作2小时就需要充电的情况相比,对于商用场景而言存在着巨大差异。
其次是实现内存与显存占用的显著降低:规模庞大的模型通常需要多块图形处理器协同工作才能维持运行,由此产生的硬件采购与能耗开销一直保持在较高水平;而借助模型轻量化处理手段后,仅需单块图形处理器乃至资源受限的嵌入式处理单元便可支撑其运行,进而显著降低了其实际部署所需满足的硬件门槛与资源成本。
第三项价值体现在实现端侧设备的离线独立运行能力。从杨琳琳的角度来看,尽管云端协同代表着长期的发展方向,但机器人终端本身必须具备基础的自主决策与本地处理能力。他提出了一个贴近生活的情景:如果家中网络突然中断,机器人不应因此陷入停滞状态。这是因为过度依赖云端服务会导致延迟增加以及断网风险,进而严重影响人机交互的整体体验与可靠性。
第四项价值在于实现交互延迟的显著降低:以抓取杯子这一常见场景为例,0.5秒的即时响应与2秒的明显延迟相比,二者所形成的人机交互体验存在显著差异。轻量化模型的推理运算速度更快,因此能够有效缩短从感知到响应的整个端到端处理延迟,从而提升交互过程的流畅程度。
然而,轻量化并不意味着仅仅追求模型体积的最小化。杨琳琳强调指出,在模型轻量化过程中,性能损失是不可避免的,其关键在于根据不同应用场景的需求来寻找恰当的平衡点。例如,对于简单的目标检测任务,使用小型模型便足以胜任,无需在所有任务中都部署大型模型;而对于复杂的通用交互任务,则可以通过采用大小模型协同工作以及Agent调度机制的方式,来同时兼顾性能表现与运行效率。
展望未来,他认为实现算法与硬件的协同优化,是推动该领域发展的根本路径。具体而言,模型层面的轻量化设计应当与专用芯片的架构开发紧密结合,致力于为具身智能应用场景定制化的算力硬件解决方案,而非简单地将个人电脑级别的图形处理器迁移至机器人平台之上。他特别强调,对于小型服务机器人这类终端设备而言,其电池容量存在物理限制,因此采用低功耗的专用芯片必然是实现技术落地与商业化的关键所在。
03
入行指南:兴趣为引,软硬兼修
正值高考志愿填报与高校毕业季之际,越来越多的学生开始关注具身智能赛道,希望能够踏入这一蓬勃发展的领域。为此我们向杨琳琳进行了请教,作为一线教学与科研工作者,他对想要入局具身智能的同学们提出了哪些建议:
首先,他对整个行业的发展前景表达了基于长期观察的坚定乐观。这种判断根植于从国家顶层战略规划到产业实践快速演进的清晰脉络。他观察到,行业正以肉眼可见的速度从无人机、机器狗等形态,向更为复杂的人形机器人快速迭代。他特别提及了一个直观的例证:“对比去年春晚机器人稍显僵硬的动作与今年能够完成复杂舞蹈编排的表现,可以清晰地看到行业整体的进步速度非常惊人。”
更为关键的是,当前进入该领域的基础条件与资源可获得性相比过去有了显著提升。回顾自身的入行历程,杨琳琳指出,在他起步时,“具身智能”这一概念尚未成为行业共识,相关的技术栈尚不完整且开发工具匮乏。然而时至今日,成熟的深度学习框架以及丰富的人工智能辅助工具已经极大降低了技术实践的复杂度,使得初学者得以跨越的初始技术障碍已大幅降低。这标志着当前阶段对于有志于投身此领域的新人而言,已构成一个极具吸引力的发展窗口与入场时机。
然而,较低的入行门槛并不意味着从业者可以采取浮躁的态度。杨琳琳对希望进入该领域的年轻人提出了两项核心建议。
其一,应当沉下心来系统性地打牢基础,避免陷入“为发表论文而进行科研”的误区。他指出并强调,目前存在相当数量的学生急于求成,倾向于通过拼接现有研究成果来快速产出论文,却并未对底层原理形成透彻理解。他更鼓励学生开展“探究性研究”:即对一篇经典论文进行彻底的研读与吃透,理解其有效的内在机理,并识别其潜在的问题。他认为,这个深度钻研的过程,其收获远大于进行浅层次论文的拼凑。杨琳琳总结道,发表论文本身并非终极目标,在此过程中培养发现问题与解决问题的能力才是更为关键的所在。
第二,应当建立软硬件相结合的系统性思维,并积极走全栈发展路线。许多专注于计算机视觉(CV)与算法方向的同学往往完全不接触硬件层面,这在长远来看会严重制约其职业发展。具身智能本身是一个高度交叉融合的领域,算法的最终价值需要借助硬件载体来得以实现。因此,即便不精通硬件设计的具体细节,也应当建立起基本的硬件认知框架,明确算法所适用的能力边界在哪里、硬件平台所提供的约束条件是什么,唯其如此,所产出的研究成果才具备真正的落地价值。他回忆道,博士期间其导师曾明确指出,博士阶段的目标并非仅仅发表若干篇论文,而是应当具备从问题发现到落地实现完整做成一件事的系统性能力与认知。在他看来,这种兼具算法与硬件、兼顾理论与实践的全栈能力,才是面向未来最为关键的核心竞争力所在。
04
产业展望:三重卡点下的融合

在2026年这个时间节点上,我们也向杨琳琳教授请教了对具身智能产业未来发展的展望。他分享了这样的观点:该行业正处于技术积累与应用探索同步加速的发展阶段,然而从当前进展迈向真正的大规模商业化落地,仍需跨越三道关键的工程化与生态化瓶颈。
数据端是行业所面临的首项重大挑战。三维多模态数据的稀缺构成了行业内的共性痛点:互联网上存在海量的二维视频数据,然而带有深度信息与物理信息的三维数据却极为匮乏。当前行业采用的解决方案是将真实数据与仿真数据相结合。仿真数据能够被无限生成,但面临着从仿真环境迁移到真实场景的域迁移问题,这使得模型容易在仿真中发现错误的捷径,从而在真实环境中失效。根据他的观点,未来数据的发展方向必然是多模态融合,即将视觉、触觉与听觉等多种感知信息共同作为输入。仅依赖视觉无法解决所有的交互问题;例如,当拿起杯子时,仅凭视觉无法判断所施加的力道大小,因此触觉信息是必不可少的。
第二个挑战则在于模型端。当前行业在主流上依赖于Transformer架构,但这一架构是否就是具身智能的最优选择?对此,杨琳琳表达了保留的态度。在他看来,具身智能的核心要素之一在于实现物理规律嵌入(Physical Grounding),而Transformer在这一方面并不具备先天的优势。因此,未来的研究可能会催生出更契合物理建模需求的新型架构,无论是基于Transformer的渐进式迭代,还是完全原创的网络结构,都是整个行业需要积极探索的方向。对于当前备受关注的VLA、世界模型以及WAM等技术路径,他没有给出绝对的优劣判断,而是认为它们各自侧重不同:VLA侧重于感知、指令与动作这三者的协同,世界模型侧重于对物理世界的建模及其未来的预演,而WAM则侧重于物理世界与动作之间的耦合,旨在实现预演与规划。在他看来,“未来的趋势必然是走向各种技术的融合,彼此取长补短,而不是陷入非此即彼的选择。”
除了模型本身,杨琳琳也特别关注具身智能的安全性与可靠性。与大语言模型中仅表现为文本错误的“幻觉”现象不同,具身机器人的任何失误都可能构成真实的物理伤害或损失。这正是他之所以关注“多样性”研究的根本原因:让模型能够生成多种可行的行动方案,而不仅仅是单一解。随后,结合具体的环境状态与人机交互信息,系统再从中确定最终输出。通过这种方式,当遇到突发状况时,系统才具备了调整和回旋的余地,从而在算法层面提升了安全冗余。
第三个关键挑战是软硬协同的落地环节。当前,许多机器人方案仍然功耗高、体积大,远非最优解。专用的具身算力芯片和成熟的端侧部署方案,是产业落地必须补齐的短板。
在产业应用方向上,他特别关注灵巧手这一赛道。人类凭借十根手指构建了支撑现代文明的工具体系与生活环境,这一事实表明,模拟人手形态的灵巧手在任务泛化能力上具备显著的先天优势。在他的分析框架内,针对特定任务可以开发专用的末端执行器,然而若要实现通用的具身智能,拟人化灵巧手便是一个无法回避的技术路径。再结合触觉传感技术的持续迭代,该领域预计将在未来数年内成为推动产业发展的核心增长点。
最后他也提到了这一点,即产业与研究相结合已经构成了一种必然的发展趋势。高校一方面拥有基础研究方面的显著优势,但在处理大规模数据以及实现工程落地能力方面则有所欠缺;企业则具备实际的应用场景和数据资源,然而在基础研究的储备上却显得不够充分。双方之间的结合,借助产业当中的真实问题来驱动科学研究,并将科研成果反馈至产业之中,这被视为实现双赢的有效路径。这同样也是他个人正在积极探索的方向,旨在将论文中的技术成果真正地应用到产业场景当中去。
在这个技术快速迭代的赛道上,一方面能观察到产业界呈现出的喧嚣与热闹,另一方面也存在着基础研究领域所进行的扎实且持续的深耕。像杨琳琳这样扎根于交叉学科的研究者和分享者,正是在两者之间架设沟通桥梁的关键角色。
来源:从三维视觉到模型轻量化,一位青年学者的具身智能观察|专访中国传媒大学杨琳琳 | 具身研习社