虹识微刊

2026-04-03

导读：Notre Dame大学提出VISER框架，将人类专家的视觉注意力模式转化为可训练知识，显著提升虹膜活体检测在开放集场景下的泛化能力。

开集攻击检测的新范式：人类感知先验如何重塑虹膜反欺骗

虹识微刊 · 论文速读第12期 · 2026-03-28

字数：约2000字

虹膜活体检测（PAD, Presentation Attack Detection）领域有一道长期未解的难题：你永远无法预知攻击者下一次会用什么材料来欺骗系统。

打印纸、彩色隐形眼镜、硅胶模具、高清屏幕……每当研究者针对已知攻击类型训练出一个高精度模型，现实世界里就会出现新的攻击方式。模型遇到从未见过的攻击，往往束手无策。

这就是所谓的开放集（Open-Set）问题：训练集里没有的攻击类型，模型判断不了。

2026年3月，Notre Dame大学 Adam Czajka 研究组在 arXiv 发布了新论文 VISER（Visually-Informed System for Enhanced Robustness in Open-Set Iris PAD），提出了一个新思路：与其让模型自己摸索，不如直接把人类专家的"看法"喂给它。

◆ 为什么开放集PAD这么难？

传统PAD模型的训练逻辑是：收集真实虹膜样本 + 各类攻击样本，训练分类器区分真假。这在封闭集场景下效果不错——训练集覆盖的攻击类型，模型能准确识别。

但问题在于，真实部署场景不是封闭集。攻击类型会随着技术进步不断演化，而收集新型攻击样本既困难又昂贵（涉及隐私和道德问题）。

开放集PAD的目标是：即使遇到训练集里从未出现过的攻击方式，模型也能正确拒绝。

这要求模型学到的不是"这张图长得像某种攻击"，而是"这张图哪些地方看起来不像真实虹膜"。这是一个更高维度的泛化能力。

◆ VISER 的核心思路：让人类来"画重点"

Czajka 团队的洞察很直接：人类眼科专家在判断一张虹膜图像是否真实时，会有自己的注意力模式——他们会看哪些区域？这些区域是不是异常？

VISER 的做法是：把这套人类注意力模式，变成模型训练的额外监督信号。

具体操作了两种方式：

① 鼠标点击标注（Click Annotation）

让人类标注者在看到虹膜图像时，点击他们认为"关键"或"可疑"的区域。这些点击坐标被转化为热力图，作为"人类视觉先验"注入训练过程。

② 眼动追踪热图（Eye-Tracking Saliency Map）

用眼动仪记录标注者在观察图像时，视线实际停留的位置和时长，生成更精确的显著性图。相比鼠标点击，眼动数据更自然、更精细，能捕捉无意识的注意力分布。

两种方式都在测试中，论文还对比了"仅用鼠标标注"、"仅用眼动数据"、"两者融合"三种方案的效果差异。

◆ 技术实现：视觉先验如何嵌入训练

VISER 的架构本质是在标准PAD骨干网络上加了一条"显著性引导支路"：

1. 输入层：原始虹膜图像 + 对应的人类显著性热图（归一化处理）

2. 特征提取：骨干网络（如 ResNet/ViT）提取图像特征

3. 注意力对齐：将模型生成的特征激活图与人类显著性热图做对齐损失，强迫模型"看人类看的地方"

4. 分类输出：真实/攻击二分类

关键在于这个对齐损失（Alignment Loss）——它不是让模型复制人类热图，而是引导模型的注意力区域向人类专家靠拢。最终模型在推理时不需要热图输入，人类先验已经被内化进权重里。

◆ 实验结果：泛化能力提升明显

论文在跨数据集场景下测试（在A数据集训练，在B数据集测试，B中包含A未见过的攻击类型），VISER 相比基线模型：

APCER（攻击通过率）下降显著：对未知攻击类型的误判率大幅降低
眼动数据优于点击数据：更自然的注意力分布比显式标注效果更好
融合方案最优：两种先验结合时泛化性能最强

更重要的是，这个提升在不同攻击材质（纸质打印、屏幕重放、3D模型）上都有体现，说明人类先验编码的是更本质的"真实虹膜"特征，而不是针对某类攻击的局部判别。

◆ 这对虹膜识别产品意味着什么？

VISER 的价值不只是学术上的精度提升，它揭示了一个工程上可操作的路径：

1. 数据标注的价值被重新定义

以往虹膜PAD的标注工作主要是"真/假"二分类打标签。VISER 表明，让专家在图上"画重点"这件事，可以带来实质性的模型泛化提升。标注工作的形式值得升级。

2. 眼动设备正在变得可用

眼动追踪设备（如 Tobii）的成本已经下降到研究室可负担的水平。对于有条件的团队，可以考虑在标注流程中引入眼动数据采集。

3. "人类先验 + 深度学习"的路线值得关注

这不是孤立的一篇论文。同期 Czajka 组还发表了另一篇用多模态 LLM 注入人类显著性知识的工作（Generalist MLLMs + Biometrics），方向一致：用人类专家知识来弥补数据驱动模型的泛化短板。这条路线在 PAD 领域正在形成体系。

◆ 局限性与未来方向

论文本身也承认几个限制：

标注成本仍然不低，眼动数据采集尤其需要专门设备和受训标注者
热图对齐假设人类专家的注意力模式是"正确的"，但专家也可能存在偏差
目前只在近红外虹膜图像上验证，可见光场景的有效性有待研究

未来方向：将这套框架扩展到多模态生物识别PAD（虹膜+人脸），以及探索是否能用合成数据替代真实眼动标注。

◆ 小结

VISER 的核心贡献可以用一句话概括：把人类专家"看什么"这件事，变成了可训练的知识。

这在工程上的意义是：下一代虹膜PAD模块，或许不只需要更多数据，还需要更好的"人机协作标注"流程。

论文信息

标题：VISER: Visually-Informed System for Enhanced Robustness in Open-Set Iris PAD
作者：Byron Dowling, Eleanor Frederick, Jacob Piland, Adam Czajka（Notre Dame大学）
发布：arXiv, 2026-03-18
评级：A级（虹识微刊推荐精读）

虹识微刊 · 论文速读栏目

乾龙技术研究 · 2026年第13周

【声明】内容源于网络

虹识微刊

虹识技术是国内顶尖的虹膜生物识别企业，公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。

内容 141

粉丝 0

虹识微刊虹识技术是国内顶尖的虹膜生物识别企业，公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。

总阅读12

粉丝0

内容141