从人眼到智能相机：视觉技术的进化与未来突破- 大数跨境

首页

从人眼到智能相机：视觉技术的进化与未来突破

GJGOT高佳光电科技有限公司

2026-01-13

人类视觉功能介绍

人类整体的视觉功能可以简单划分为眼球和大脑两部分。
大脑能够通过图像学习过程训练识别外部环境和物体，这相当于人工智能处理器的功能。

眼球的作用是获取图像（这部分相当于相机中的基于帧的图像传感器）以及感知外界变化（这部分相当于基于事件的视觉传感器）。请参考下图的人眼解剖图：

人眼中有两种不同的光感受器。神经元的数量和分布如下:

• 锥细胞（600万至800万个，主要位于中央凹），用于获取清晰的彩色图像
• 杆细胞（7500万至1.5亿个，主要分布在视网膜各处），用于感知外界事件的变化

就人眼的视觉功能（获取清晰的彩色图像）而言，眼球中心（中央凹）的分辨率最高约为800万像素；而对于人眼的事件检测功能，整个视网膜的最高分辨率约为1.5亿像素。

• 眼球的角膜和晶状体相当于光学透镜
• 虹膜和瞳孔相当于透镜中的光圈
• 中央凹（位于视网膜中心）相当于接收清晰彩色图像的图像传感器
• 视网膜用于快速检测如亮度变化等脉冲事件，相当于基于事件的视觉传感器

当视网膜感知到事件时，人脑会发出指令，转动眼球或颈部，使眼球中心与事件目标对齐，以便在中央凹上清晰成像并传输到大脑。中央凹、视网膜、眼球和颈部转动这四个部分无缝协作，使视觉神经元能够以最高效的方式（消耗更少的神经元和更少的视神经能量）执行完整的视觉功能。人类数百万年的进化确实是有道理的。

相机的工作原理

数码相机的工作原理和组成部分可以用以下公式来概括。

相机 = 镜头 + 图像传感器 + 影像处理器

镜头

镜头的主要功能是提供对焦。没有镜头的相机拍摄的照片会模糊。
（左边图像未安装镜头；右边的图像安装了镜头）

除了提供最基本的对焦功能外，镜头还可以根据不同需求增加相应的功能。

• 光学变焦：使用光学变焦进行放大或缩小，可避免图像质量失真。
• 视场角（FOV）：使用广角镜头（如鱼眼镜头）来改变相机的视场角。
• OIS（光学图像稳定）：用于减少拍照时因手部抖动造成的图像模糊。
• DOF（景深）：控制镜头的光圈（F值）以创建不同的景深效果。
• 红外滤光片：为了拍摄出与人类肉眼所见图像颜色一致的照片，需要过滤掉红外光，使只有可见光（波长400纳米-700纳米）照射到图像传感器上。

手机轻薄化的需求限制了所能使用镜头的复杂性和多功能性。不过，手机可以依靠提供多种不同规格的镜头+传感器组合以及后端图像处理技术，来实现不同的镜头成像效果，如变焦、不同视场角、浅景深（背景虚化）和图像防抖等。

图像传感器

图像传感器可以被视为一种数字胶片。它是一个由无数个光电二极管组成的二维像素阵列，用于接收来自镜头的光线。一个光电二极管对应图像中的一个像素。光电二极管会根据其接收的光子数量生成相应的数字信号强度。光子数量由光强度和曝光时间长短决定。也就是说，每个光电二极管输出每个像素的亮度，而整个像素阵列则代表图像传感器输出的图像。以下三个部分将介绍图像传感器的色彩生成格式、分辨率和曝光控制。

传感器色彩输出格式

为了产生彩色输出效果，图像传感器的像素阵列上会添加一个彩色滤光片阵列（CFA）。彩色滤光片阵列最主流的格式是拜耳模式，如下图所示。

CFA由蓝、绿、红三种原色以BGGR相邻的2×2格式组成。这样一来，每个光电二极管只能接收蓝、绿、红三种颜色中的一种光，而传感器输出的图像包含CFA的马赛克图案。该马赛克图案如图所示。

拜耳图像显示了每个光电二极管根据其接收的红色、蓝色或绿色光子数量转换后的信号强度（即亮度级别）。这种传感器输出的图像就是所谓的原始拜耳图像。它需要进一步的图像处理才能生成人眼可见的图像。

图像传感器分辨率

在21世纪初，第一代拍照手机所使用的图像传感器分辨率为VGA（640×480）。如今已达到2亿像素（16384×12288）。在不到20年的时间里，手机图像传感器的分辨率提升了650多倍。

光电二极管会根据其接收的光子数量生成相应的数字信号强度。在相同的曝光时间内，面积较大的光电二极管能接收的光子数量比面积较小的多。也就是说，光电二极管的面积越大，在较暗的光线环境下就越能保持图像的清晰。当图像传感器的面积（光电二极管数量×单个光电二极管面积）受到手机镜头尺寸的限制时，提高分辨率（即增加光电二极管的数量）会减小单个光电二极管的面积，这意味着盲目提高分辨率会影响图像的保真度，尤其是在低光条件下。如何同时兼具高分辨率和高图像质量，这是一个需要解决的问题。

为了兼顾高分辨率的画质表现以及中低亮度环境下的清晰成像，下图展示了三星如何通过合并相邻的2x2或4x4像素，来在中低亮度环境下保持图像清晰。2亿像素似乎是一个理想的分辨率平衡点。它不仅能在白天户外提供高分辨率带来的数字变焦优势，还能通过2x2或4x4像素合并实现低亮度环境下的拍摄效果，并支持8K视频（7680x4320）和4K视频（3840x2160）输出。

图像传感器快门控制

图像传感器提供内置的快门控制。它不需要像传统胶片相机的机械快门那样占用额外空间。通常，图像传感器的快门控制可分为两种模式：全局快门和卷帘快门。全局快门是指所有像素（光电二极管）的曝光开始和结束时间点都相同。

卷帘快门，顾名思义，是一种类似显示器光栅扫描的扫描过程。第一行的曝光开始时间比第二行早一个行时间，第一行的曝光结束时间也比第二行早一个行时间，因此曝光时间窗口逐行下移。每个像素的曝光时间相同，但不同行的时间戳不同。这种模式成本相对较低，能提供更高的帧率，广泛应用于手机摄像头。但如果图像中的物体或相机快速移动，会导致图像模糊或失真。因此，那些会因模糊图像而产生误判的机器视觉应用会更倾向于使用全局快门图像传感器，例如iPhone中用于识别人脸的原深感摄像头。

图像处理器

图像传感器输出的原始拜耳图像需要经过一系列复杂的图像处理，才能生成人眼在屏幕上看到的图像，然后被压缩成照片JPEG文件，或者视频H.264/H.265文件。

图像处理器是负责此类图像处理过程的组件。它还有一个行业名称：ISP（图像信号处理系统）。该组件包括硬件和软件。以下三个部分将介绍ISP的主要内部功能。

镜头校正、色彩插值、降噪

镜头校正

为了让图像处理器生成人眼所见的图像，它必须首先弥补镜头和图像传感器的不足。特别是手机镜头（使用较低的光圈值）会使图像传感器的四角接收的光线少于中心，这意味着四角会更暗，如下图所示。

图像处理器（ISP）的镜头校正功能是根据图像的位置调整每个图像像素的信号强度，以消除镜头渐晕现象。下图清晰地展示了这一功能。

色彩插值

我们描述了图像传感器的输出是拜耳模式格式，因为每个像素输出只会是红、蓝、绿三种原色中的一种，这使得图像看起来像马赛克。图像信号处理器（ISP）最核心的功能之一是进行色彩插值（行业内也称为去马赛克），这意味着每个像素都将包含红、蓝、绿三种成分，如图所示。

降噪

图像传感器输出的图像信号强度可用以下公式描述：

图像信号强度∝（环境光强度）×（曝光时间）×（传感器像素面积）

我们之前也提到过，图像传感器的像素（光电二极管）面积与其接收的光子数量成正比。当周围光线较暗且传感器像素面积较小时，在特定曝光时间限制下，传感器输出的图像会有更高的噪点。这就解释了为什么由于手机相机的传感器像素较小，其图像信号处理器（ISP）必须不断开发更好的图像降噪功能。

自动曝光/自动白平衡/自动对焦

相机图像信号处理器（ISP）具有所谓的3A软件控制功能：自动曝光（AE）、自动白平衡（AWB）和自动对焦（AF）。

• AE自动曝光控制，相机通常对整体图像输出有自己预期的平均亮度值。AE会实时计算传感器输出图像的平均亮度。如果该亮度低于预期值，AE软件会增加传感器的曝光时间；如果高于预期值，AE软件会减少传感器的曝光时间，直到传感器输出的平均亮度与预期亮度值一致。

• AWB—什么是相机的自动白平衡？当我们的眼睛看到白色或灰色物体时，这意味着该物体反射的RGB三原色强度相同。当图像传感器接收到白色或灰色物体的反射光时，尽管传感器接收到的RGB光强度相同，但传感器输出的图像中物体的颜色却不是白色或灰色。这是因为传感器光电二极管的光子到电荷的转换率会随波长（即颜色）而变化，如下图10所示。相机的自动白平衡就是根据传感器所呈现的不同波长光子转换为电荷的效率分布，来调整红色增益和蓝色增益，使传感器输出的图像颜色与人类眼睛所看到的一致。

• 自动对焦（AF）可分为被动对焦和主动对焦。被动对焦是利用图像对比度检测来找到与图像最清晰边缘对应的镜头位置。主动对焦是通过测量被摄物体与相机之间的距离来直接调整镜头位置。一般来说，相机同时提供这两种方法（称为混合对焦），即先进行主动对焦，然后再进行对比度检测以进行微调。

由于手机摄像头必须满足轻量化和薄型化的要求，主动对焦的相位检测器被巧妙地集成到了传感器像素中。每个像素被分为左半部分和右半部分，形成所谓的双像素，像素的这两个部分会接收光线。来自这两个部分的相位差信息被用于调整镜头位置，从而实现快速对焦。然而，如果拍摄对象在水平方向上缺乏特征变化，左右分割的双像素就无法实现良好对焦，因此最新的传感器中还加入了垂直分割像素的方法，如下图所示。

此外，由于分割后的像素区域更小，在极低光环境下获得的相位差容易受到噪声干扰，因此高端手机摄像头会配备激光自动对焦（Laser AF）来测量距离，以辅助满足夜间摄影的自动对焦需求。

智能相机未来可能的发展方向

当前的智能相机使用基于帧的相机，例如手机相机。由于现有AI处理器的计算能力有限，图像通常会按比例缩小到VGA尺寸或更小（在高度和宽度上），然后AI处理器才能开始进行物体识别计算。这降低并限制了智能相机的应用内容，因为图像分辨率较低且图像输入的延迟较长。

目前，业界也在开发具有类似人眼视网膜功能的基于事件的视觉传感器。图14展示了它与传统的基于帧的图像传感器之间的区别。到目前为止，这种基于事件的传感器技术还不如基于帧的图像传感器成熟。当然，即便是基于帧的图像传感器，也可以继续改进诸如高动态范围（HDR）、信噪比（SNR）等功能。

如果我们能够模仿人眼中央凹和视网膜的分工，也就是说，用一个高分辨率的基于彩色帧的图像传感器来执行人类眼睛中央凹的功能，再用另一个基于事件的视觉传感器来执行视网膜的功能。当事件传感器检测到事件时，基于帧的图像传感器会利用事件传感器检测到的事件坐标，输出一个或多个图像帧区域（即ROI——感兴趣区域）。这些不同的ROI可以有不同的曝光参数，从而使不同的ROI具备最佳的图像质量。之后，AI处理器只需识别这些ROI，而无需处理基于帧的传感器输出的整帧缩小图像。这一过程不仅能提供低延迟、更高分辨率的ROI图像，还能大幅降低高分辨率基于帧的传感器和AI处理器的功耗。这将使智能相机在不同环境下都能达到接近人眼的视觉识别效果。

文章来源：芯片设计有问有答

【声明】内容源于网络

GJGOT高佳光电科技有限公司

江西高佳光电科技成立于2010年，是国家级"专精特新"高新技术企业，主营光学球面/平面元件、棱镜、树脂及精密模压非球面元件、光学镜头等。2020年布局越南生产基地，致力成为全球领先的一站式光学元器件供应商。

内容 15

粉丝 0

GJGOT高佳光电科技有限公司江西高佳光电科技成立于2010年，是国家级"专精特新"高新技术企业，主营光学球面/平面元件、棱镜、树脂及精密模压非球面元件、光学镜头等。2020年布局越南生产基地，致力成为全球领先的一站式光学元器件供应商。

总阅读0

粉丝0

内容15