30帧、3瓦、91%准确率:FPGA INT8量化如何重新定义边缘虹膜识别的性能边界
2026年4月30日 · 虹识技术研究院
MobileNetV2 + INT8量化 + Kria KV260 FPGA,一篇来自胡志明市科技大学的论文,给出了边缘视觉AI部署的最优参数组合:30 FPS、3瓦功耗、91.74%准确率。对虹膜识别的FPGA落地,这是一份可直接参考的工程蓝图。
一、三个让工程师兴奋的数字
30 FPS。3 瓦。91.74% 准确率。
这三个数字来自2026年3月发表于 EAI Endorsed Transactions on AI and Robotics 的论文:《Hardware-Aware INT8 Quantization and FPGA Deployment of MobileNetV2 for Real-Time Facial Landmark Detection》。作者来自越南胡志明市科技大学,使用平台是 AMD/Xilinx 的 Kria KV260 Vision AI Starter Kit。
论文直接对象是人脸关键点检测,但其核心方法论——将轻量级视觉模型通过 INT8 量化部署到 FPGA——对虹膜识别领域有高度可迁移的参考价值。方法可移植,结论可复用,工程路径已经打通。
▎ 论文核心数据
平台:Kria KV260(Zynq UltraScale+ MPSoC)
推理速度:30 FPS(实时)
功耗:约 3W(DPU推理部分)
准确率(QAT):91.74%
模型压缩:4×(FP32 → INT8)
资源占用:14.8% LUT / 16.3% BRAM / 4.5% DSP
二、为什么是 FPGA + INT8,而不是 GPU?
在理解论文方法之前,先建立一个认知:为什么虹膜识别的边缘部署要选 FPGA,而不是直接用 GPU 或 NPU?
大多数虹膜识别的实际场景——门禁终端、手持采集设备、边检通道——都面临三重约束:功耗限制(不能接大电源、不能过热)、实时要求(识别延迟必须在1~2秒内)、成本约束(工业级GPU几千元起,不适合大规模量产)。
FPGA 恰好卡在 MCU(太弱)和 GPU(太贵太耗电)的中间地带:可编程、低功耗、确定性延迟、批量成本可控。而 INT8 量化则是释放 FPGA 算力的关键——将 FP32 浮点权重映射到 8 位整数,计算量减少 4 倍,内存带宽需求降低 4 倍,准确率通常只损失 1~3%。
三、论文方法拆解:两阶段量化部署流程
这篇论文的方法论清晰,工程性很强,核心是一个两阶段流程:软件量化分析在前,硬件部署验证在后,两个阶段职责分离,互不依赖。
Stage I:模型量化(PyTorch → INT8)
以 MobileNetV2 为骨干网络,对比了两种量化策略:
PTQ(训练后量化):直接对训练好的 FP32 模型进行量化,无需重新训练,速度快,但精度损失约 2~4%。QAT(量化感知训练):在训练过程中模拟量化误差,让模型在低精度环境下"提前适应",精度损失极小。论文最终选择 QAT 方案,准确率达到 91.74%,仅比 FP32 基线低约 1.2%。
Stage II:FPGA 部署(Kria KV260)
量化后的模型通过 AMD Vitis AI 工具链完成编译和部署。流程如下:QAT 模型(PyTorch)→ Vitis AI Quantizer → INT8 量化模型 → Vitis AI Compiler → DPU 可执行文件 → 部署到 KV260 DPU → 实时推理。
KV260 搭载 B1600 配置的 DPU(1600 MAC 并行),整板功耗约 5W,DPU 推理部分约 3W,推理帧率稳定在 30 FPS(每帧 <33ms),模型大小压缩至 1.65 MB,为 FP32 版本的四分之一。
💡 工程师视角
Vitis AI 工具链是这套方案的关键枢纽。它屏蔽了 FPGA 底层的硬件细节,让算法工程师可以直接从 PyTorch 模型出发,完成量化、编译、部署的全流程,无需手写 RTL 或 HLS。这大幅降低了 FPGA 部署的门槛——如果你会 PyTorch + QAT,KV260 的 DPU 部署本质上是可以自学闯通的。
四、对虹膜识别的工程启示
这篇论文虽然做的是人脸关键点,但方法论对虹膜识别的 FPGA 部署几乎可以直接复用。原因很直接:虹膜分割用的轻量级网络(MobileNetV2-based encoder-decoder),与本文使用的骨干网络高度相似。
迁移路径一:虹膜分割网络 FPGA 部署
虹膜识别的第一步是分割——定位虹膜区域,去除眼皮和睫毛遮挡。同样的 QAT + Vitis AI + KV260 流程,理论上可直接用于虹膜分割网络部署。预期性能:分割推理 >30 FPS(虹膜分割比关键点检测更轻量),功耗 <3W,准确率损失 <2%。
迁移路径二:对乾芯™ 芯片的方法论参考
虹识技术的乾芯™ 系列采用 FPGA 硬核架构,与 KV260 的 DPU 思路相似:将神经网络计算固化到硬件逻辑。本文验证了核心结论:QAT 量化 + 硬件感知设计,可以在 FPGA 上实现 GPU 级别的推理效率,同时功耗降低一个数量级。这对乾芯™ 未来在多模态识别(虹膜+人脸)场景下的算力分配策略,有直接参考价值。
产品层面的直接意义也很清楚:门禁设备无需昂贵的工业 GPU,手持设备电池寿命可以大幅延长,边检通道可以部署更密集的识别点位。30 FPS、3W 的组合,正好卡在嵌入式产品可接受的功耗预算内。
五、局限与未解之题
当然,这篇论文也有明确的局限,工程师在参考时需要清醒。
任务差异:人脸关键点检测 ≠ 虹膜识别。虹膜分割需要处理更细腻的边界(瞳孔/虹膜/巩膜的三级分割),IrisCode 编码对特征精度的要求也高于关键点坐标回归。直接迁移前必须做充分的验证实验。
活体检测缺席:INT8 量化的 PAD(活体检测)模块没有在本文中讨论。对于实际部署的虹膜识别系统,活体检测是不可绕过的安全屏障——同期 Notre Dame 团队的论文(arXiv 2603.26976)已经证明,死后虹膜在死后长达 69 天内仍可被识别系统接受。没有 PAD 模块的系统,是不完整的系统。
数据集规模:论文训练集规模有限,面部关键点数据在不同光照、角度下的泛化性,与虹膜识别的跨场景泛化需求相比,还需要更大规模的验证。
▎ 工程启发总结
1. QAT 优于 PTQ:量化感知训练是保留准确率的最优路线,1.2% 的损失代价可接受。
2. Vitis AI 是最低摩擦路径:从 PyTorch 到 FPGA 的完整工具链,算法工程师可以自主打通。
3. KV260 是验证平台首选:低成本、开放生态、Zynq MPSoC 架构,适合快速原型验证。
4. 3W 功耗目标是可达的:虹膜识别终端产品的功耗预算现在有了实测锚点。
结语
MobileNetV2 × FPGA × INT8 量化——这个组合在 2026 年正在成为边缘视觉 AI 的标准工程路径。对于虹膜识别行业而言,这不只是一篇论文,而是一份可操作的工程蓝图。
30帧、3瓦、91% 的数字背后,是可穿戴虹膜识别、超低功耗边缘终端、大规模部署成本优化的真实可能性。乾芯™ 的硬核之路,与这篇论文的方向高度一致。技术在收敛,方向在明朗。
— 虹识微刊 —

