舜宇智能光学

2020-05-11

上回介绍了机器人视觉的一些基础信息，说到机器人视觉的核心任务是estimation，理论框架是射影几何理论。然而，整个estimation 的首要条件是已知像素点坐标，尤其是多幅图中对应点的像素坐标。

单幅图像的处理方法不赘述，想讲讲不变点检测与不变特征。由于机器人在不断运动，所以可能从不同方向对同一物体进行拍摄。而拍摄的距离有远近，角度有titled. 由于射影变换本身的性质，无法保证两幅图中的物体看上去一样。所以我们需要一种特征提取方法（特征点检测），能够保证检测是旋转，缩放不变的。除此之外还要一种特征描述方法，同样对旋转和缩放不变。

1、SIFT特征提取

SIFT特征提取可以分为以下几个步骤：

1、多尺度卷积

2、构造金字塔

3、3D非极大值抑制

多尺度卷积的作用是构造一个由近及远的图像。金字塔则由下采样进行构造。

对于不同尺度的图像同一个像素，我们可以跟踪它“灰度”的变化。我们发现，如果某一点对不同 sigma 的模版响应是不同的，最大响应（卷积后的灰度）所对应的scale 成为该点本征scale。这有点像对一个机械结构给不同频率的激励，某一频率下会发生共振，我们可以记录此频率一定程度上代表了此结构（单摆频率只和ml有关，有了f就可以重现系统）。

所以，我们只要找到一个合适的模版（激励方式），再找到最大响应，就可以获取图片中各个点的 Intrinsic Scale(本征尺度)。同一物体在不同距离拍摄后，都会统一在Intrinsic Scale下进行响应。由此解决了尺度不变的问题。

3D非极大值抑制是指在某点的3*3*3邻域内，仅取最大响应，作为特征点。由于该点是空间邻域中响应最强的，所以该点也是旋转不变的。从各个方向看，该点响应最强。