NeurIPS'23｜实现亚微秒级的延迟！EV-Eye：通过事件相机重新思考高频眼动追踪



NeurIPS'23｜实现亚微秒级的延迟！EV-Eye：通过事件相机重新思考高频眼动追踪

极市平台

2023-11-03

导读：文章提出了一种新颖的帧-事件混合眼动跟踪方法，以挖掘多模态数据集的潜力，实现高达 38.4Hz 的跟踪频率。

↑ 点击蓝字关注极市平台

作者丨赵广荣同学

编辑丨极市平台

极市导读

文章介绍了首个基于事件相机的大规模多模态眼动跟踪数据集，旨在激发对高频眼动/注视跟踪的研究。本文利用新兴的生物启发事件相机捕捉眼球运动引起的独立像素级强度变化，实现了亚微秒级的延迟。研究表明，与现有解决方案相比，本文方法在瞳孔和注视估计任务上都达到了更高的精度。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

这是我们发表在Neurips 2023 上的一篇论文，论文题目：EV-Eye: Rethinking High-frequency Eye Tracking through the Lenses of Event Cameras。文章介绍了首个基于事件相机的大规模多模态眼动跟踪数据集，旨在激发对高频眼动/注视跟踪的研究。

本文利用新兴的生物启发事件相机捕捉眼球运动引起的独立像素级强度变化，实现了亚微秒级的延迟。数据集是在两周的时间内从 48 位不同性别年龄的参与者中收集的。该数据集由两台 DAVIS346 事件相机生成的 150 多万张近眼灰度图像和 27 亿个事件样本组成。此外，该数据集还包含由 Tobii Pro Glasses 3 眼睛跟踪器捕获的 67.5 万张场景图像和 270 万个注视参考，用于跨模态验证。与现有的基于事件的高频眼动跟踪数据集相比，我们的数据集在规模上要大得多，而且注视参考涉及更多自然的眼动模式。除了事件数据，我们还提出了一种混合眼球跟踪方法作为基准，该方法同时利用近眼灰度图像和事件数据进行稳健的高频眼球跟踪。研究表明，与现有解决方案相比，本文方法在瞳孔和注视估计任务上都达到了更高的精度。

项目地址：https://github.com/Ningreka/EV-Eye

数据集下载： https://1drv.ms/f/s!Ar4TcaawWPssqmu-0vJ45vYR3OHw

一、简介

眼动跟踪是一种连续测量眼球运动的技术(l)，在科学领域和日常应用中显示出巨大的前景。目前主流的传统眼动跟踪系统利用传统的 CCD/CMOS 摄像头捕捉眼睛的外观进行计算。然而，受限于 CCD/CMOS 摄像头的帧频和有限的带宽，传统眼球跟踪系统的更新频率通常被限制在几百赫兹，它阻碍了需要超过千赫兹跟踪频率的应用的实现，如精神疾病的诊断，VR注视点渲染和基于眼球追踪的用户认证。人眼在眼跳状态下的角速度峰值可达 700°/s，眼球加速度高达 24,000°/s。要实现超过千赫兹频率的精确眼动追踪，需要大幅提高摄像头带宽，这成为基于 CCD/CMOS 摄像头的主流系统的一个基本障碍。一些昂贵的眼动仪（价格超过数万美元），如 EyeLink 1000，可以利用高速摄像头提供一千赫兹的眼动跟踪频率。然而，高帧率给下游任务的处理带来了相当大的计算负担，因此不适合用于 VR 头显等设备。

这一挑战激发了人们使用新兴的生物启发动态视觉传感器（也称为事件相机）来进行眼动跟踪。传统相机以固定帧率获取信息，而事件相机则通过捕捉独立的像素级光强变化来感知场景，并产生异步事件流来指示光强变化的位置和极性。由于其异步性和数据存储方式，事件相机可以实现亚微秒级的延迟。此外，事件相机还具有自适应功能：目标运动越快，每秒产生的事件就越多，反之亦然。在近眼拍摄场景中，眼睛运动引起的光强变化在时间和空间上都很稀疏。因此，与传统相机相比，事件相机可以根据眼球运动的速度来调整事件的密度，并更有效地利用相机带宽。这些特性使事件相机成为高频眼动跟踪的理想选择。

本文的主要贡献总结如下：

本文介绍了领域中最大、最多样化的高频眼球跟踪多模态帧-事件数据集（总容量超过 170Gb）。我们提出了一种新颖的混合帧-事件眼球跟踪基准测试方法，该方法专为所收集的数据集量身定制，能够以高达 38.4kHz 的频率跟踪瞳孔。通过对数据集的评估，本文方法在瞳孔和注视估计方面都大大优于现有的解决方案。

二、 EV-Eye 数据集

2.1事件相机基本原理：

与传统的 RGB 摄像机不同，事件摄像机不是以固定速率产生同步视频帧，而是产生异步事件流。具体来说，事件摄像机的像素独立工作，检测场景光强的变化，如：

其中, 是像素在时刻的强度值。当像素的强度变化超过阈值时，将立即产生一个事件。事件流是事件的集合，用四元组表示。当事件发生正向变化时 (即像素点光强变大时), 极性为 +1 , 反之则为 -1 。与传统的 RGB 摄像机相比, 事件摄像机具有许多独特之处。由于事件是在检测到变化时立即启动的, 无需全局同步, 因此事件流具有高时间分辨率和低响应延迟 (微秒级) 的特点。事件摄像机只在检测到变化时才产生事件, 因此节省了传感器的能量和带宽。此外高动态范围 (140 dB, 传统 RGB 摄像机为 60 dB) 使其能够在极具挑战性的照明条件下正常工作。这些特性使事件摄像机在高速运动捕捉和资源有限的设备上的应用具有巨大的潜力。

图1. (a) 数据集采集设定(b) 采集样本示意，近眼灰度图像与 40 毫秒的事件重叠展示.

2.2数据模态：

如图 1(a)所示，本文提出的EV-Eye 采用了三种不同的传感模式，包括由两组 DAVIS346 事件相机捕捉到的近眼灰度图像和事件流，以及由Tobii Pro Glasses 3提供的注视参考。

事件流：事件流由两组分辨率为 346×240 的 DAVIS346 事件摄像机收集。它们包括由眼球运动、眨眼和其他细微动作引起的强度变化所触发的事件。这种设置可提供高时间分辨率，实现高频眼动跟踪。

灰度图像： DAVIS346 摄像机还能以 25fps 的帧频记录近眼灰度图像序列。这些图像提供了丰富的眼部语义信息，有助于在图像域中对瞳孔进行准确的分割，是对事件流的补充。

注视参考： 由于在眼球运动过程中获取注视点（PoG）的真实标签并不可行，本文采用了一种商业化设备 Tobii Pro Glasses 3 来获取注视参考。它能以 100Hz 的频率提供用户的注视点和瞳孔直径。Tobii 眼镜式眼动仪的视场角（FoV）为 95∘×63∘，注视估计任务可以达到 0.6 的角度误差。

数据注释：文章利用 VGG 图像注释器，在整个图像数据集中统一选取 9,011 张近眼图像，对瞳孔区域进行注释。通常，瞳孔区域被视为一个椭圆。因此，我们通过调整代表瞳孔区域椭圆的主轴、次轴和倾斜度以及椭圆中心来标注该区域。然后根据椭圆区域生成二值化掩码 G' 作为真实标签。

2.3 EV-Eye 数据集

我们招募了 48 名参与者（28 名男性和 20 名女性）年龄在21岁至35岁。数据集包括从两台 DAVIS346 摄像机和一台 Tobi Pro Glasses 3眼动仪收集的多模态数据。两台 DAVIS346 相机生成了 150 万张近眼灰度图像和超过 27 亿个事件。图 1(b)显示了九个受试者的近眼灰度图像样本。

图 2(a) 展示了本文的数据集中所提供的注视参考的分布情况。从图中可以看出，数据集中的 PoGs 在二维空间中分布密集，偏航范围约为 95°，俯仰方向约为 63°。然而，如图 2(b) 所示，其他现有基于事件相机的数据集只提供了非常稀疏的注视参考。其中红点是固定状态下刺激物出现的位置，平方波浪线是平滑追逐过程中刺激物的轨迹，其假设人的注视可以跟随刺激物的指引，但实际情况往往并非如此。通过比较两个数据集，我们的数据集提供的注视参考明显更密集，并且涉及所有状态，即凝视fixation, 随机扫视saccade和平滑追逐smooth pursuit。因此，Tobii Glasses 眼动仪可以提供更丰富的时间信息，从而有助于研究注视估计和眼动动态信息。

图2. (a)本文所采集的数据集注视点分布(b) 其他现有的基于事件相机的数据集注视点分布

三、基准方法

本文提出的基准测试方法，可同时利用近眼灰度图像和事件相机生成的事件流来实现精确的高频眼球跟踪。方法的概览如图3所示。

3.1基于帧的瞳孔分割

本文采用 U-Net 进行瞳孔分割, 该模型已被证明达到了最先进的准确度, 并被许多基于深度学习的眼球追踪研究工作所采用。瞳孔分割组件输出二值化掩膜以提取曈孔区域。得到二值化掩膜M后，采用形态学闭口运算来去除分割瞳孔区域中的额外噪声。然后，将分割后的掩膜中心点视为瞳孔中心点c，并使用边缘检测器找到瞳孔边界。

3.2基于事件的高频瞳孔跟踪

候选点子集: 在分割出瞳孔区域后, 我们设计了一种方法如图 4, 来选择事件点候选子集 ,用于高频瞳孔跟踪。这样, 就能过滤掉由睫毛和眼睑运动引起的噪声事件, 因为这些事件与瞳孔的实际运动无关。

首先，对于瞳孔模板边界上的每个像素，我们计算其到模板中心的距离然后，根据以下规则选取一组个事件点组成候选点集 :

其中，是当前事件点在图像上的坐标; 是当前事件点到模板中心的距离; 和是两个比例因子 (本文实验中分别设置为 )。如图 4(a)所示, 我们将位于两个同心圆之间的个事件点累积起来, 形成由瞳孔运动产生的事件点子集。

图4 选定候选点子集的示例（a）位于两个同心圆之间的事件点构成候选点子集。(b)点-边缘匹配的示例，候选点子集引导瞳孔更新示意图，蓝色箭头代表瞳孔的移动方向。

点到边匹配方法：本文提出了一种点到边匹配方法，根据累积的候选点集来更新瞳孔模板中心。

首先使用候选事件集计算当前瞳孔边界的平移量。在我们的案例中, 事件是由于瞳孔在摄像机空间的水平和垂直方向移动而产生的。如图 4(b) 所示, 当瞳孔向左上角移动时,部分虹膜像素点变为瞳孔像素点, 并产生极性为负的事件即图中的红色点 (光强度降低);同样, 部分瞳孔像素变为虹膜像素, 并产生极性为正 (光强度增加) 的蓝色事件点。因此,点到边缘匹配方法的目标是找到最优平移，使 -norm 误差达到最小:

其中，是最优平移变换；和分别是和中的样本。更具体地说，可通过三个步骤获得。首先，对于每个事件样本 , 通过最近邻搜索找到其在中最近的像素 ,得到同时, 对于每个 , 我们会得到它离最近像素的水平距离和垂直距离。第二步, 对于中的每个点 , 我们将其沿水平和垂直方向分别移动和。其中。最后, 重复以上两个步骤，并通过以下方式更新平移 T

其中。当减小至 , 时，迭代结束。

模板中心更新：获得最佳平移变换后, 利用中的个候选事件更新模板中心:

其中，为最后的瞳孔模板中心。通过用少量事件更新瞳孔模板中心，即可以高频率追踪眼球运动。

3.3 注视点估计

获得瞳孔中心后, 我们利用多项式回归法来估计屏幕上的。给定瞳孔中心坐标 ,通过次多项式变换得到相应的 PoG:

其中, 是屏幕上的估计横坐标; 是多项式阶数; 和是系数。纵坐标也可以按照同样的方法得到。由于受试者的异质性, 例如人眼的卡帕角和角膜半径不同, 系数的获得通过采集受试者的数据进行校准。

四、实验

在本节中，我们将采用两种基准方法来评估 EV-Eye 数据集：本文提出的方法和基于模型的方法即EVBEYE方法。数据集评估采用了四个指标：1.Intersection over union(IoU) 是广泛用于瞳孔区域分割的指标，相当于估计瞳孔区域和真实瞳孔区域的重叠度。2.骰子系数（F1 Score） 是眼球分割任务中另一个常用的指标。用于衡量估计瞳孔区域与真实瞳孔区域之间的相似度。3.眼球跟踪的像素误差（Pixel error, PE） 是眼球跟踪的定位精度，用估计值与地面实况之间的像素欧氏距离来表示。4.注视跟踪中的方向误差（Difference of direction, DoD），注视跟踪中的方向误差（DoD）是估计注视方向与参考注视方向之间的差值，用于显示注视跟踪的性能。

4.1 基于帧的瞳孔分割评估

本文的方法和现有的EVBEYE方法都包含基于帧的瞳孔分割部分。不同的是，我们采用的是基于 DL 的方法而不是基于模型的方法。我们使用 9011 张人工标注的图像进行独立于用户的评估：在每一轮测试中，我们选择来自1个人的图像进行测试，其余 47 个对象的图像用于训练。报告了两种不同方法（即基于 DL 的方法和基于模型的方法）的每个被试对象的 loU、Fl score 和 PE。

IoU 和 F1 分数。图 5(a)和图 5(b)分别显示了两种方法得到的不同研究对象的 loU 和 Fl 分数。与基于模型的方法相比，本文提出的基于 DL 的方法在所有研究对象上都获得了明显更高的 loU 和 Fl 分数，基于 DL 的方法和基于模型的方法的平均 IoU 值分别为 0.9187 和 0.8360，而这两种方法的平均 F1 分数分别为 0.9560 和 0.9075。在瞳孔分割任务中，基于 DL 的方法的 loU 和 F1 分数平均比基于模型的方法高 8.27% 和 4.85%。

基于帧的瞳孔分割像素误差（Pixel error, PE）。两种方法的 PE 值见图 6。在所有受试者中，本文基于 DL 的方法的 PE 值都明显低于基于模型的方法。基于 DL 的方法和基于模型的方法的平均 PE 值分别为 0.64px 和 1.3px。因此，基于 DL 的方法在基于帧的瞳孔分割方面比基于模型的方法显著提高了 50.7%。

4.2基于事件的瞳孔跟踪评估

比较和评估我们基于模板匹配的方法和现有的EVBEYE方法提出的基于模型的方法在基于事件的瞳孔跟踪方面的准确性。

基于事件的瞳孔追踪的像素误差(PE）。我们将 9011 幅已标注的图像作为参考，来评估基于事件的瞳孔追踪的准确性。具体来说，两种方法都是先获取标注图像前最后一张灰度图像的瞳孔区域。然后，基于事件的瞳孔追踪模块对两幅图像之间的事件进行追踪。将基于事件的模块获得的最后一张瞳孔中心与标注灰度图像的真实标签进行比较，以获得跟踪精度。图 7 显示了两种方法对每个受试者的预测结果。与基于模型的方法相比，我们基于匹配的方法在所有受试者中的 PE 值都明显较低。所有受试者的平均 PE 降低了约 6.5 倍，即从 7.7px 降至 1.2px。

4.3瞳孔追踪频率评估

我们通过计算追踪频率的累积分布函数 (CDF) 和概率密度函数 (PDF) 来评估使用 EV-Eye 追踪瞳孔的时间分辨率。一旦积累了包含 20 个事件的候选点子集, 我们就立即更新瞳孔位置。第一个事件和最后一个事件之间的时间差为瞬时跟踪频率定义为。图 7 显示了跟踪频率的 CDF (a) 和 PDF (b)。本文方法的峰值跟踪频率高达。这表明我们的方法能够捕捉超高速眼球运动。

五、总结

在本文中，我们介绍了用于高频眼动跟踪的最多样化和最大的基于事件的多模态数据集 EV-Eye，该数据集是从使用不同设备的 48 名受试者中收集的。来自两个 DAVIS346 的帧和事件能够以极高的时间分辨率描述眼球运动，而一个商业化的眼球跟踪器可以为跨模态比较提供密集分布的注视参考。然后，文章提出了一种新颖的帧-事件混合眼动跟踪方法，以挖掘多模态数据集的潜力，实现高达 38.4Hz 的跟踪频率。在 EV-Eve 上进行的广泛评估表明，与最先进的帧-事件混合眼球跟踪方法相比，我们的方法在多样化数据集上实现了更高的准确性和更好的鲁棒性。