虹识微刊

2026-04-30

导读：MobileNetV2 + INT8量化 + Kria KV260 FPGA，30 FPS、3瓦功耗、91.74%准确率——边缘虹膜识别FPGA部署的完整工程路径解析。

虹识微刊 · 论文速读

30帧、3瓦、91%准确率：FPGA INT8量化如何重新定义边缘虹膜识别的性能边界

2026年4月30日 · 虹识技术研究院

MobileNetV2 + INT8量化 + Kria KV260 FPGA，一篇来自胡志明市科技大学的论文，给出了边缘视觉AI部署的最优参数组合：30 FPS、3瓦功耗、91.74%准确率。对虹膜识别的FPGA落地，这是一份可直接参考的工程蓝图。

一、三个让工程师兴奋的数字

30 FPS。3 瓦。91.74% 准确率。

这三个数字来自2026年3月发表于 EAI Endorsed Transactions on AI and Robotics 的论文：《Hardware-Aware INT8 Quantization and FPGA Deployment of MobileNetV2 for Real-Time Facial Landmark Detection》。作者来自越南胡志明市科技大学，使用平台是 AMD/Xilinx 的 Kria KV260 Vision AI Starter Kit。

论文直接对象是人脸关键点检测，但其核心方法论——将轻量级视觉模型通过 INT8 量化部署到 FPGA——对虹膜识别领域有高度可迁移的参考价值。方法可移植，结论可复用，工程路径已经打通。

▎ 论文核心数据

平台：Kria KV260（Zynq UltraScale+ MPSoC）
推理速度：30 FPS（实时）
功耗：约 3W（DPU推理部分）
准确率（QAT）：91.74%
模型压缩：4×（FP32 → INT8）
资源占用：14.8% LUT / 16.3% BRAM / 4.5% DSP

二、为什么是 FPGA + INT8，而不是 GPU？

在理解论文方法之前，先建立一个认知：为什么虹膜识别的边缘部署要选 FPGA，而不是直接用 GPU 或 NPU？

大多数虹膜识别的实际场景——门禁终端、手持采集设备、边检通道——都面临三重约束：功耗限制（不能接大电源、不能过热）、实时要求（识别延迟必须在1~2秒内）、成本约束（工业级GPU几千元起，不适合大规模量产）。

FPGA 恰好卡在 MCU（太弱）和 GPU（太贵太耗电）的中间地带：可编程、低功耗、确定性延迟、批量成本可控。而 INT8 量化则是释放 FPGA 算力的关键——将 FP32 浮点权重映射到 8 位整数，计算量减少 4 倍，内存带宽需求降低 4 倍，准确率通常只损失 1~3%。

三、论文方法拆解：两阶段量化部署流程

这篇论文的方法论清晰，工程性很强，核心是一个两阶段流程：软件量化分析在前，硬件部署验证在后，两个阶段职责分离，互不依赖。

Stage I：模型量化（PyTorch → INT8）

以 MobileNetV2 为骨干网络，对比了两种量化策略：

PTQ（训练后量化）：直接对训练好的 FP32 模型进行量化，无需重新训练，速度快，但精度损失约 2~4%。QAT（量化感知训练）：在训练过程中模拟量化误差，让模型在低精度环境下"提前适应"，精度损失极小。论文最终选择 QAT 方案，准确率达到 91.74%，仅比 FP32 基线低约 1.2%。

Stage II：FPGA 部署（Kria KV260）

量化后的模型通过 AMD Vitis AI 工具链完成编译和部署。流程如下：QAT 模型（PyTorch）→ Vitis AI Quantizer → INT8 量化模型 → Vitis AI Compiler → DPU 可执行文件 → 部署到 KV260 DPU → 实时推理。

KV260 搭载 B1600 配置的 DPU（1600 MAC 并行），整板功耗约 5W，DPU 推理部分约 3W，推理帧率稳定在 30 FPS（每帧 <33ms），模型大小压缩至 1.65 MB，为 FP32 版本的四分之一。

💡 工程师视角

Vitis AI 工具链是这套方案的关键枢纽。它屏蔽了 FPGA 底层的硬件细节，让算法工程师可以直接从 PyTorch 模型出发，完成量化、编译、部署的全流程，无需手写 RTL 或 HLS。这大幅降低了 FPGA 部署的门槛——如果你会 PyTorch + QAT，KV260 的 DPU 部署本质上是可以自学闯通的。

四、对虹膜识别的工程启示

这篇论文虽然做的是人脸关键点，但方法论对虹膜识别的 FPGA 部署几乎可以直接复用。原因很直接：虹膜分割用的轻量级网络（MobileNetV2-based encoder-decoder），与本文使用的骨干网络高度相似。

迁移路径一：虹膜分割网络 FPGA 部署

虹膜识别的第一步是分割——定位虹膜区域，去除眼皮和睫毛遮挡。同样的 QAT + Vitis AI + KV260 流程，理论上可直接用于虹膜分割网络部署。预期性能：分割推理 >30 FPS（虹膜分割比关键点检测更轻量），功耗 <3W，准确率损失 <2%。

迁移路径二：对乾芯™ 芯片的方法论参考

虹识技术的乾芯™ 系列采用 FPGA 硬核架构，与 KV260 的 DPU 思路相似：将神经网络计算固化到硬件逻辑。本文验证了核心结论：QAT 量化 + 硬件感知设计，可以在 FPGA 上实现 GPU 级别的推理效率，同时功耗降低一个数量级。这对乾芯™ 未来在多模态识别（虹膜+人脸）场景下的算力分配策略，有直接参考价值。

产品层面的直接意义也很清楚：门禁设备无需昂贵的工业 GPU，手持设备电池寿命可以大幅延长，边检通道可以部署更密集的识别点位。30 FPS、3W 的组合，正好卡在嵌入式产品可接受的功耗预算内。

五、局限与未解之题

当然，这篇论文也有明确的局限，工程师在参考时需要清醒。

任务差异：人脸关键点检测 ≠ 虹膜识别。虹膜分割需要处理更细腻的边界（瞳孔/虹膜/巩膜的三级分割），IrisCode 编码对特征精度的要求也高于关键点坐标回归。直接迁移前必须做充分的验证实验。

活体检测缺席：INT8 量化的 PAD（活体检测）模块没有在本文中讨论。对于实际部署的虹膜识别系统，活体检测是不可绕过的安全屏障——同期 Notre Dame 团队的论文（arXiv 2603.26976）已经证明，死后虹膜在死后长达 69 天内仍可被识别系统接受。没有 PAD 模块的系统，是不完整的系统。

数据集规模：论文训练集规模有限，面部关键点数据在不同光照、角度下的泛化性，与虹膜识别的跨场景泛化需求相比，还需要更大规模的验证。

▎ 工程启发总结

1. QAT 优于 PTQ：量化感知训练是保留准确率的最优路线，1.2% 的损失代价可接受。
2. Vitis AI 是最低摩擦路径：从 PyTorch 到 FPGA 的完整工具链，算法工程师可以自主打通。
3. KV260 是验证平台首选：低成本、开放生态、Zynq MPSoC 架构，适合快速原型验证。
4. 3W 功耗目标是可达的：虹膜识别终端产品的功耗预算现在有了实测锚点。

结语

MobileNetV2 × FPGA × INT8 量化——这个组合在 2026 年正在成为边缘视觉 AI 的标准工程路径。对于虹膜识别行业而言，这不只是一篇论文，而是一份可操作的工程蓝图。

30帧、3瓦、91% 的数字背后，是可穿戴虹膜识别、超低功耗边缘终端、大规模部署成本优化的真实可能性。乾芯™ 的硬核之路，与这篇论文的方向高度一致。技术在收敛，方向在明朗。

— 虹识微刊 —

【声明】内容源于网络

虹识微刊

虹识技术是国内顶尖的虹膜生物识别企业，公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。

内容 141

粉丝 0

虹识微刊虹识技术是国内顶尖的虹膜生物识别企业，公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。

总阅读12

粉丝0

内容141

FPGA INT8量化：30帧3瓦的边缘虹膜识别工程实践

30帧、3瓦、91%准确率：FPGA INT8量化如何重新定义边缘虹膜识别的性能边界