具身智能的方向感:三维世界坐标变换

2026年06月01日 10:58
本文共计10122个字,预计阅读时长34分钟。
来源/具身研习社 责编/爱力方

本文作者来自深蓝学院具身君,由深蓝具身智能出品。

对于经历过传统机器人学时代的读者而言,坐标变换这一课题早已形成了一套完善的理论体系。其中,DH参数、齐次变换矩阵、正逆运动学共同构成了其理论基石,使得工业机器人借助于这些成熟的技术方案,成功实现了所达到的微米级重复定位精度。

然而,在具身智能时代,这一曾被视作已妥善解决的问题,却骤然演变为制约发展的关键瓶颈之一。

试想一下,当机器人需要拿起桌上的水杯时,其系统究竟是如何对水杯的具体坐标位置加以确定的?

相机以自身的视角为中心来感知周围的世界,机械臂则以自身底座作为原点来规划运动轨迹,而目标物体(水杯)则存在于一个独立的世界坐标系当中。

倘若无法将这三种坐标描述语言统一起来,那么在机器人的感知层面,水杯便仅仅是像素点的集合,而无法被识别为一个可供交互的实体。

而解决这一矛盾的关键之所在,恰恰在于三维世界当中的坐标变换。

简而言之,传统工业机器人所要解决的,是一个被定义在封闭且参数化空间之内的数学计算问题。

而具身智能所面临的坐标系问题,其难点并非在于对一组方程进行求解的过程本身变得更为复杂,而是在于这组方程的输入条件,已经从明确的已知常量,转变为了一类必须借助高维感知来推断得出、且充满了不确定性的变量。

因此,本文将聚焦于“三维世界的坐标变换”,从最基础的概念出发,以通俗易懂的方式阐述四大坐标系的定义、相机的成像原理,以及机器人如何将二维图像信息映射并转化为三维空间中的精确动作。

机器人的“方向感”:为何需要坐标系?

试想,当机器人需要取用水杯时,其内部系统究竟如何确定该杯子的具体空间位置?

在具身智能的语境下,机器人系统必须将来自视觉等传感器所获取的感知信息,与末端执行器所开展的物理操作进行深度且紧密的耦合。

以机械臂抓取物体为例:

当相机成功捕捉到桌面上的水杯时,其本质上仅能提供该水杯处于“相机视角”下的位置信息。然而,机械臂若要精准地伸出执行器完成抓取动作,则需要明确该水杯相对于自身底座的确切位置。

这就好比你在审视一张地图,若想从地图上辨识出某个地点,你必须将其标注位置转换为你实际所处的地理坐标,才能规划出前往该地的具体路线。

为了解决这一问题,我们需要建立起统一的参考标准,而这套标准便是坐标系。

在机器视觉与机器人控制领域,存在着四大核心坐标系,它们共同构筑了机器人得以理解三维世界的认知基石。

▲图 | 四大坐标系分类

世界坐标系作为整个系统的绝对参考基准,其本质是确定并描述空间中所有物体位置与姿态的统一依据。它通常选定并固定于机器人工作环境的某一特定点位,例如常以机器人底座的中心或地面上的某个角落作为该坐标系的原点。

相机坐标系以相机镜头的中心,即光心,作为其原点,其中相机的拍摄方向被定义为 Z 轴,而 X 轴与 Y 轴则平行于成像平面。

图像坐标系和像素坐标系均被设定于同一二维成像平面之上,然而二者的原点位置有所差异。

图像坐标系的原点被设定于成像平面的中心位置,该点也即主点,或称为光轴与成像平面的交点,其单位采用物理长度(毫米)来表示。

像素坐标系的原点被设定在图像的左上角,而所有坐标均以像素(pixel)为单位进行表达。

▲图1 | 四大坐标系的关系示意图。空间中某一三维点 P(Xw, Yw, Zw) 以其自身为参考基准,经过相机光心 Oc 进行投影后,最终映射为成像平面上的像素点 p(u, v)。此过程所涉及的,是世界坐标系、相机坐标系、图像坐标系以及像素坐标系之间的一系列严格的坐标变换。

从3D到2D:相机是如何"看"世界的?(内参矩阵)

f0249bd41a33fe656acd1ca2b59e1000.png

相机“看”世界的方式,实质上是把三维空间中的物体投射并压缩为一张二维图像。

该过程能够借助针孔相机模型(即小孔成像模型)来加以解释:当光线穿过一个极小的针孔,也即相机光心,便会在后方的感光平面上形成一个倒立的像。

为了便于开展后续的数学计算,我们通常会通过坐标系的数学变换,将成像平面“翻转”至针孔的前方位置,如此一来,所形成的像便成为正立的,这便与我们在实际中看到的照片保持了一致。

▲图示 | 相机几何模型示意图。该图直观地展示了相机坐标系、图像(物理)坐标系、世界坐标系以及像素坐标系之间的空间关系。真实世界中的物体,例如埃菲尔铁塔,会借助相机的投影过程,在像素坐标系中形成其对应的图像。

相机内参矩阵(Intrinsic Matrix)所描述的,是相机坐标系到像素坐标系这一变换过程,它完全由相机自身的物理参数所决定,而与相机在空间中的具体位置以及姿态无关。

内参矩阵包含以下关键参数:

焦距(Focal Length):

焦距f,指的是从镜头光心到成像平面之间所度量的距离,它会直接决定了最终成像画面的放大倍数。

966ea2cee2a631232ad167aeefa1ce43.png

为了在像素坐标系中表示焦距,需要将其转换为像素单位。具体来说,水平方向的像素焦距 fx 等于 f 除以 dx,垂直方向的像素焦距 fy 等于 f 除以 dy。其中,dx 和 dy 分别表示单个像素在水平与垂直方向上的物理尺寸。

光心坐标(Principal Point):

光轴与成像平面的交点,也即图像的主点,其在像素坐标系下的坐标会被表示为(cx, cy),该坐标通常会接近于图像的中心位置。

根据相机的针孔成像模型,空间中某点在相机坐标系下的三维坐标 (Xc, Yc, Zc) 可以通过相似三角形的几何关系,投影到成像平面上。具体而言,该点与其在图像(物理)坐标系中的二维坐标 (x, y) 满足特定的比例关系,而图像坐标 (x, y) 到最终像素坐标 (u, v) 的转换则由内参矩阵所定义。因此,三维坐标 (Xc, Yc, Zc) 与最终的像素坐标 (u, v) 之间的映射关系,其核心数学基础正是相似三角形原理。

为了将这一关系清晰地表示出来,可以将其写成矩阵形式,其中深度值Zc与像素坐标向量(u,v,1)的乘积,严格等于内参矩阵K与相机坐标向量(Xc,Yc,Zc)的乘积。

其中,矩阵 K 便是相机的内参矩阵,它完全取决于相机自身的硬件参数。通常情况下,相机完成出厂设置后内参便已固定,也可以借助相机标定的方式来获取。

▲图3 | 针孔相机成像模型的侧视图。

b85bff97d354623b4c570ff2150fc462.jpg

该图清晰地展示了三维空间点、相机光心、焦距以及成像平面之间的几何关系。依据相似三角形原理,能够推导出从三维坐标到二维坐标的投影公式。

坐标系之间的转换:不同视角如何统一?

然而,当相机在工作空间内发生移动时,相机坐标系与世界坐标系之间的相对位置与姿态关系也会随之改变。为了能够将从图像中所感知到的信息统一地映射到固定的世界坐标系之下,我们还需要引入外参矩阵(Extrinsic Matrix)来描述相机坐标系相对于世界坐标系的变换关系。这一变换过程具体包括将世界坐标系中的点通过旋转和平移操作,转换到相机坐标系之中,其中旋转矩阵R用于表征方向的改变,平移向量T则用于描述位置的偏移。因此,外参矩阵正是用以定义并实现从世界坐标系到相机坐标系的转换,它由旋转矩阵R和平移向量T共同构成,明确描述了相机在世界中的具体位置与朝向。

然而,相机所观察到的视角,也即相机坐标系;以及真实的物理空间,也即世界坐标系,二者往往并不完全重合:

相机既可能悬挂于天花板上方,也可能装配在机械臂的末端,其空间位置以及朝向时刻处于变化之中。

那么,如何将世界坐标系下的三维点位置,转换到相机坐标系之下呢?这一过程,正是依赖于相机的外参矩阵来完成的。

这就需要用到外参矩阵(Extrinsic Matrix)。

外参矩阵对相机在世界坐标系中的位姿(Pose)进行了描述,即其位置与姿态。该矩阵由两部分所组成:

平移向量 (Translation Vector)t:

该三维向量用以描述相机坐标系原点相对于世界坐标系原点所发生的直线位移。

旋转矩阵 (Rotation Matrix)R:

该 3×3 矩阵用于描述相机坐标系相对于世界坐标系的旋转关系。它构成了一个正交矩阵,其行列式值恒为 1,并且该矩阵的逆矩阵严格等于其转置矩阵。

1754b42464b47e44495c3946883ab1f2.png

世界坐标系下某点的坐标 Pw = (Xw, Yw, Zw)ᵀ,可以通过相机的外参变换矩阵转换至相机坐标系,该点在相机坐标系下的对应坐标 Pc 表示为:

借助齐次坐标,能够把旋转和平移这两种变换操作统一合并为单一的矩阵乘法运算,从而得到一个 4×4 的齐次变换矩阵(Homogeneous Transformation Matrix):

1ede8974c76f76fd04c1d6589acb002e.png

这就是典型的刚体变换(Rigid Body Transformation)。

6f05f6b5f07048fcf9e539597f13cbbe.jpg

在坐标变换过程中,物体的形状与大小保持不变,所改变的仅仅是物体在空间中的位置及其方向。

▲图4 | 相机成像的完整坐标变换链路。

首先,世界坐标系借助外参矩阵(该矩阵由旋转矩阵 R 与平移向量 T 共同构成)转换至相机坐标系;随后,通过焦距 f 所定义的投影变换,最终得到在图像平面坐标系以及像素坐标系之下的对应坐标。

串联全过程:2D像素如何变回3D位置?

通过将前述两个关键步骤进行整合,即可构建起从世界坐标到像素坐标的完整投影链路。

对于经历过传统机器人学时代的读者而言,坐标变换这一课题早已形成了一套完善的理论体系。其中,DH参数、齐次变换矩阵、正逆运动学共同构成了其理论基石,使得工业机器人借助于这些成熟的技术方案,成功实现了所达到的微米级重复定位精度。

然而,在具身智能时代,这一曾被视作已妥善解决的问题,却骤然演变为制约发展的关键瓶颈之一。

试想一下,当机器人需要拿起桌上的水杯时,其系统究竟是如何对水杯的具体坐标位置加以确定的?

相机以自身的视角为中心来感知周围的世界,机械臂则以自身底座作为原点来规划运动轨迹,而目标物体(水杯)则存在于一个独立的世界坐标系当中。

倘若无法将这三种坐标描述语言统一起来,那么在机器人的感知层面,水杯便仅仅是像素点的集合,而无法被识别为一个可供交互的实体。

而解决这一矛盾的关键之所在,恰恰在于三维世界当中的坐标变换。

简而言之,传统工业机器人所要解决的,是一个被定义在封闭且参数化空间之内的数学计算问题。

而具身智能所面临的坐标系问题,其难点并非在于对一组方程进行求解的过程本身变得更为复杂,而是在于这组方程的输入条件,已经从明确的已知常量,转变为了一类必须借助高维感知来推断得出、且充满了不确定性的变量。

因此,本文将聚焦于“三维世界的坐标变换”,从最基础的概念出发,以通俗易懂的方式阐述四大坐标系的定义、相机的成像原理,以及机器人如何将二维图像信息映射并转化为三维空间中的精确动作。

机器人的“方向感”:为何需要坐标系?

试想,当机器人需要取用水杯时,其内部系统究竟如何确定该杯子的具体空间位置?

在具身智能的语境下,机器人系统必须将来自视觉等传感器所获取的感知信息,与末端执行器所开展的物理操作进行深度且紧密的耦合。

当相机成功捕捉到桌面上的水杯时,其本质上仅能提供该水杯处于“相机视角”下的位置信息。然而,机械臂若要精准地伸出执行器完成抓取动作,则需要明确该水杯相对于自身底座的确切位置。

这就好比你在审视一张地图,若想从地图上辨识出某个地点,你必须将其标注位置转换为你实际所处的地理坐标,才能规划出前往该地的具体路线。

b66d91f74ad434b4e2bbc11254c8028a.png

为了解决这一问题,我们需要建立起统一的参考标准,而这套标准便是坐标系。

在机器视觉与机器人控制领域,存在着四大核心坐标系,它们共同构筑了机器人得以理解三维世界的认知基石。

c4fae724463e47efe18e753fef7c3ca0.png

世界坐标系作为整个系统的绝对参考基准,其本质是确定并描述空间中所有物体位置与姿态的统一依据。它通常选定并固定于机器人工作环境的某一特定点位,例如常以机器人底座的中心或地面上的某个角落作为该坐标系的原点。

相机坐标系以相机镜头的中心,即光心,作为其原点,其中相机的拍摄方向被定义为 Z 轴,而 X 轴与 Y 轴则平行于成像平面。

图像坐标系和像素坐标系均被设定于同一二维成像平面之上,然而二者的原点位置有所差异。

e6340aa0cedde5cf41415bb0eef1a483.png

图像坐标系的原点被设定于成像平面的中心位置,该点也即主点,或称为光轴与成像平面的交点,其单位采用物理长度(毫米)来表示。

像素坐标系的原点被设定在图像的左上角,而所有坐标均以像素(pixel)为单位进行表达。

▲图1 | 四大坐标系的关系示意图。空间中某一三维点 P(Xw, Yw, Zw) 以其自身为参考基准,经过相机光心 Oc 进行投影后,最终映射为成像平面上的像素点 p(u, v)。此过程所涉及的,是世界坐标系、相机坐标系、图像坐标系以及像素坐标系之间的一系列严格的坐标变换。

从3D到2D:相机是如何"看"世界的?(内参矩阵)

相机“看”世界的方式,实质上是把三维空间中的物体投射并压缩为一张二维图像。

该过程能够借助针孔相机模型(即小孔成像模型)来加以解释:当光线穿过一个极小的针孔,也即相机光心,便会在后方的感光平面上形成一个倒立的像。

为了便于开展后续的数学计算,我们通常会通过坐标系的数学变换,将成像平面“翻转”至针孔的前方位置,如此一来,所形成的像便成为正立的,这便与我们在实际中看到的照片保持了一致。

▲图示 | 相机几何模型示意图。该图直观地展示了相机坐标系、图像(物理)坐标系、世界坐标系以及像素坐标系之间的空间关系。真实世界中的物体,例如埃菲尔铁塔,会借助相机的投影过程,在像素坐标系中形成其对应的图像。

相机内参矩阵(Intrinsic Matrix)所描述的,是相机坐标系到像素坐标系这一变换过程,它完全由相机自身的物理参数所决定,而与相机在空间中的具体位置以及姿态无关。

71bf5bb9433762c3e4543f1bbaef8d9c.png

焦距f,指的是从镜头光心到成像平面之间所度量的距离,它会直接决定了最终成像画面的放大倍数。

为了在像素坐标系中表示焦距,需要将其转换为像素单位。具体来说,水平方向的像素焦距 fx 等于 f 除以 dx,垂直方向的像素焦距 fy 等于 f 除以 dy。其中,dx 和 dy 分别表示单个像素在水平与垂直方向上的物理尺寸。

光轴与成像平面的交点,也即图像的主点,其在像素坐标系下的坐标会被表示为(cx, cy),该坐标通常会接近于图像的中心位置。

根据相机的针孔成像模型,空间中某点在相机坐标系下的三维坐标 (Xc, Yc, Zc) 可以通过相似三角形的几何关系,投影到成像平面上。具体而言,该点与其在图像(物理)坐标系中的二维坐标 (x, y) 满足特定的比例关系,而图像坐标 (x, y) 到最终像素坐标 (u, v) 的转换则由内参矩阵所定义。因此,三维坐标 (Xc, Yc, Zc) 与最终的像素坐标 (u, v) 之间的映射关系,其核心数学基础正是相似三角形原理。

为了将这一关系清晰地表示出来,可以将其写成矩阵形式,其中深度值Zc与像素坐标向量(u,v,1)的乘积,严格等于内参矩阵K与相机坐标向量(Xc,Yc,Zc)的乘积。

其中,矩阵 K 便是相机的内参矩阵,它完全取决于相机自身的硬件参数。通常情况下,相机完成出厂设置后内参便已固定,也可以借助相机标定的方式来获取。

该图清晰地展示了三维空间点、相机光心、焦距以及成像平面之间的几何关系。依据相似三角形原理,能够推导出从三维坐标到二维坐标的投影公式。

坐标系之间的转换:不同视角如何统一?

然而,当相机在工作空间内发生移动时,相机坐标系与世界坐标系之间的相对位置与姿态关系也会随之改变。为了能够将从图像中所感知到的信息统一地映射到固定的世界坐标系之下,我们还需要引入外参矩阵(Extrinsic Matrix)来描述相机坐标系相对于世界坐标系的变换关系。这一变换过程具体包括将世界坐标系中的点通过旋转和平移操作,转换到相机坐标系之中,其中旋转矩阵R用于表征方向的改变,平移向量T则用于描述位置的偏移。因此,外参矩阵正是用以定义并实现从世界坐标系到相机坐标系的转换,它由旋转矩阵R和平移向量T共同构成,明确描述了相机在世界中的具体位置与朝向。

然而,相机所观察到的视角,也即相机坐标系;以及真实的物理空间,也即世界坐标系,二者往往并不完全重合:

相机既可能悬挂于天花板上方,也可能装配在机械臂的末端,其空间位置以及朝向时刻处于变化之中。

那么,如何将世界坐标系下的三维点位置,转换到相机坐标系之下呢?这一过程,正是依赖于相机的外参矩阵来完成的。

外参矩阵对相机在世界坐标系中的位姿(Pose)进行了描述,即其位置与姿态。该矩阵由两部分所组成:

该三维向量用以描述相机坐标系原点相对于世界坐标系原点所发生的直线位移。

该 3×3 矩阵用于描述相机坐标系相对于世界坐标系的旋转关系。它构成了一个正交矩阵,其行列式值恒为 1,并且该矩阵的逆矩阵严格等于其转置矩阵。

世界坐标系下某点的坐标 Pw = (Xw, Yw, Zw)ᵀ,可以通过相机的外参变换矩阵转换至相机坐标系,该点在相机坐标系下的对应坐标 Pc 表示为:

借助齐次坐标,能够把旋转和平移这两种变换操作统一合并为单一的矩阵乘法运算,从而得到一个 4×4 的齐次变换矩阵(Homogeneous Transformation Matrix):

8a875e6cc138dcc1e55dfb1b223fd3be.png

在坐标变换过程中,物体的形状与大小保持不变,所改变的仅仅是物体在空间中的位置及其方向。

首先,世界坐标系借助外参矩阵(该矩阵由旋转矩阵 R 与平移向量 T 共同构成)转换至相机坐标系;随后,通过焦距 f 所定义的投影变换,最终得到在图像平面坐标系以及像素坐标系之下的对应坐标。

通过将前述两个关键步骤进行整合,即可构建起从世界坐标到像素坐标的完整投影链路。

用矩阵形式表达为:

在投影过程中,深度值 Zc 与像素坐标相乘的结果,可以通过内参矩阵 K 和外参矩阵 [R|t] 的矩阵乘积,再与世界坐标相乘来得到。

该公式构成了整个相机成像模型的核心所在。

其中,K 代表了一个 3×3 的内参矩阵,而 [R|t] 则是一个 3×4 的外参矩阵。将这两者进行矩阵乘法运算,便可以得到一个 3×4 的投影矩阵(Projection Matrix),该矩阵完整地描述了从三维世界坐标到二维图像坐标的映射关系。

深度丢失问题:从2D恢复3D的挑战

然而,在该领域,我们通常需要面对的是逆问题的求解:在投影过程中,深度值Zc与像素坐标的乘积,可以通过内参矩阵K与外参矩阵[R|t]的乘积,再与世界坐标相乘而获得。该公式构成了整个相机成像模型的核心所在。其中,K代表了一个3×3的内参矩阵,而[R|t]则是一个3×4的外参矩阵。通过将这两者进行矩阵乘法运算,便能够获得一个3×4的投影矩阵,凭借这一矩阵,便能够完整地描述从三维世界坐标到二维图像坐标的完整映射关系。

8f21603eccac19082b45ced1774cff90.png

机器人借助相机拍摄获得了一张二维照片,那么如何从中推算得到物体在三维世界中的实际位置呢?

这构成了一个极具挑战性的问题。 这是由于在从三维世界投影至二维图像的过程中,会丢失一个至关重要的信息:深度(Depth)。

在同一条射线上的所有三维点,都会被投影至二维照片上的同一个像素点处。换言之,仅凭借一张普通的RGB照片,无法对物体的三维位置进行唯一确定。

为了实现深度信息的恢复,机器人通常需要借助特殊的硬件或算法:

双目相机(Stereo Camera):

模仿了人类双眼的视觉机制,借助计算两个相机视角之间的视差(Disparity),从而实现对深度的估算。

两个相机相距一定距离,该距离称为基线B;同一物体在两张图像中的水平位移构成视差,深度z与视差成反比。

其中 f 为焦距,(x - x') 为视差值。

▲图 | 双目相机深度估计原理。

在典型的立体视觉系统中,两个相机被间隔一定的基线距离B进行部署。对于同一个空间点X,它会在左右两个相机的成像平面上分别形成投影位置x与x'。这两个投影位置之间的水平差异,便是我们所说的视差。

通过视差可以反算出物体的深度 z。

深度相机(RGB-D Camera):

直接对相机与物体之间的距离进行测量。这主要包含以下几种常见的技术形式:

结构光(Structured Light)技术:通过向场景投射预先设定的已知图案,并依据图案在物体表面所产生的变形情况来完成深度信息的计算。

飞行时间(英文缩写为ToF,全称Time-of-Flight)技术,其基本原理是借助向目标物体发射一束激光脉冲,随后通过精确测量该光脉冲的往返传播时间,来计算出物体与传感器之间的距离。

▲图6 | 深度相机系统中两种主流的结构光成像原理。

左侧图示为一种线结构光技术方案,其工作原理在于:借助线性扫描激光器,将一道激光线投射至物体表面,随后由相机对该激光线在物体上所发生的形变进行拍摄,进而得以计算物体的深度信息。

右图展示了面结构光的成像方案,其具体过程是:将预先编码好的光源图案投射到物体表面,随后通过相机捕捉该图案因物体表面曲率而发生的几何形变,以此为依据来反向推算并重建出物体的完整三维形状。

让机器人"手眼协调":手眼标定

在理解并掌握了内参和外参的概念之后,我们来关注一下具身智能领域中一个非常关键的实际问题:

手眼标定(Hand-Eye Calibration) 。

手眼标定的核心目标,在于对相机坐标系与机器人坐标系(通常指基座坐标系或末端执行器坐标系)之间的相对位置关系进行求解。

——即相机的外参。

只有在完成手眼标定之后,机器人才能够把视觉系统所识别到的物体位置信息,准确地转换为机械臂能够加以执行的运动指令。

基于相机与机器人之间安装位置关系的差异,手眼标定被划分为两种典型的构型模式。

68172b1fb572b9ab018a6304fd9b1e2f.png

眼在手上(Eye-in-Hand):

相机被安装在机械臂的末端执行器之上,并能够跟随机械臂的运动而同步移动。

当运用该方式时,相机能够从多个不同的角度对目标进行观察,然而,相机与基座之间的变换关系会随着机械臂的运动而发生变化。

眼在手外(Eye-to-Hand):

相机被固定安装在机械臂之外的区域,例如天花板或专用支架上,其本身不会跟随机械臂的运动而发生位移。

由于这种安装方式下相机与基座之间的变换关系始终维持固定状态,因此只需完成一次标定工作,便能够满足长期的使用需求。

1709019687db2d3943eb9e9418f4ecc7.jpg

手眼标定所涉及的核心数学问题,可以被归结为对矩阵方程的求解:

其中,矩阵A描述了机械臂末端执行器在两个位置之间发生的运动变换,矩阵B代表了相机通过观测标定板所确定的、相应两个位置之间的变换关系,而矩阵X则是我们需要求解的、连接相机坐标系与末端执行器坐标系的未知变换矩阵。

▲图 | 手眼标定的数学原理。

机械臂分别移动至两个不同的位置,其中第一个位置记为ε1,第二个位置记为ε2,并在每个位置对固定的标定板进行拍摄。该标定板在两个拍摄时刻的姿态分别标记为H1与H2。

借助机械臂末端的运动变换矩阵 A、相机所观测到的标定板变换矩阵 B,以及待求解的手眼变换矩阵 X,能够建立起方程。

从而得以求解得出相机坐标系与末端执行器坐标系之间的精确变换关系。

▲图示 | 机器人抓取任务中所涉及的完整坐标系框架。

图中描绘了机器人基座坐标系 {a}、末端夹爪坐标系 {b}、相机坐标系 {c} 以及目标物体坐标系 {d}。

在完成手眼标定之后,系统能够将相机所识别到的目标位置信息,借助一系列坐标变换操作,最终转换到机械臂基座坐标系下的精确位置坐标,从而得以实现精准抓取动作。

从像素点回归物理世界的闭环

让我们重新审视本文开头所描述的那个场景:机器人需要完成抓取桌面上水杯的任务。现在,我们能够依托此前讨论的坐标变换理论,对这一任务进行更为系统和清晰的梳理。

机器人系统确定水杯位置的过程,构成了一个能够被精确描述、并且可以分步进行验证的坐标变换链路。

首先,桌面上的水杯存在于世界坐标系之中,该坐标系需借助外参矩阵所定义的旋转与平移操作,将其转换到相机坐标系下;这一过程实质上完成了观测视角从世界基准到相机光学系统的转换;

相机坐标系下的三维点,经由内参矩阵所执行的透视投影变换,最终被映射至像素坐标系下的二维坐标。

—— 以上便是正向的感知链路。(至此,机器人得以完成了"看见"这一过程。)

然而,仅凭二维图像的“看见”并不等同于对三维空间的“理解”。为了从二维图像中恢复出三维空间信息,必须利用深度相机或双目相机所获取的深度数据,并在此基础上结合相机内参矩阵进行反向投影计算,从而将二维像素点重新转换为相机坐标系下的三维点云。

—— 这是逆向的理解链路。

最终,借助手眼标定技术,将相机坐标系与机器人坐标系统一起来,使点云中的每一个三维点,都得以被转换为机械臂基座能够执行的精确坐标。

—— 这是应用的操作链路。

这三条链路首尾相互衔接,从而得以共同构成了一个完整的闭环。

因此,当机械臂牢牢抓住水杯的那一刻,从本质上而言,是一个坐标得以经历三次精确的变换,最终被另一个坐标系下的执行器所准确接住。

所谓“具身”,其核心并非在于简单地为AI装配一副物理躯体,而是要求智能体掌握在物理空间各坐标系间自由转换与穿行的能力。从本质上来讲,每一次智能交互,均可以视为一系列坐标的精准映射与双向奔赴。

再比如,一个在仿真环境中表现出极佳流畅性的VLA模型,当其部署至真实机器人后,却反复出现在目标杯子旁抓取失败的情形。若对点云数据进行可视化分析,便会发现物体位置的标识并无错误;而将机械臂末端执行器的位姿打印出来检查,其逆运动学(IK)的解算过程与结果亦准确无误。

那问题出在哪里?

在常见的情形当中,问题往往源于坐标变换。相机所观测到的“前方10厘米”,以及机械臂需执行运动的“前方10厘米”,可能并非指向同一方向。

三维坐标变换,其根本目的在于解决系统中普遍存在的坐标系对齐偏差问题。它构成了具身智能技术架构的基石,同时也是一条往往被复杂算法模型所掩盖、却又至关重要的核心基础。

来源:彻底搞懂具身智能的"方向感":三维世界坐标变换 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/