大数跨境

FPGA INT8量化:30帧3瓦的边缘虹膜识别工程实践

FPGA INT8量化:30帧3瓦的边缘虹膜识别工程实践 虹识微刊
2026-04-30
2
导读:MobileNetV2 + INT8量化 + Kria KV260 FPGA,30 FPS、3瓦功耗、91.74%准确率——边缘虹膜识别FPGA部署的完整工程路径解析。

   
   
     虹识微刊 · 论文速读    
   

30帧、3瓦、91%准确率:FPGA INT8量化如何重新定义边缘虹膜识别的性能边界

   

2026年4月30日 · 虹识技术研究院

 
       
   

MobileNetV2 + INT8量化 + Kria KV260 FPGA,一篇来自胡志明市科技大学的论文,给出了边缘视觉AI部署的最优参数组合:30 FPS、3瓦功耗、91.74%准确率。对虹膜识别的FPGA落地,这是一份可直接参考的工程蓝图。

 
   

一、三个让工程师兴奋的数字

 

30 FPS。3 瓦。91.74% 准确率。

 

这三个数字来自2026年3月发表于 EAI Endorsed Transactions on AI and Robotics 的论文:《Hardware-Aware INT8 Quantization and FPGA Deployment of MobileNetV2 for Real-Time Facial Landmark Detection》。作者来自越南胡志明市科技大学,使用平台是 AMD/Xilinx 的 Kria KV260 Vision AI Starter Kit

 

论文直接对象是人脸关键点检测,但其核心方法论——将轻量级视觉模型通过 INT8 量化部署到 FPGA——对虹膜识别领域有高度可迁移的参考价值。方法可移植,结论可复用,工程路径已经打通。

   
   

▎ 论文核心数据

   

平台:Kria KV260(Zynq UltraScale+ MPSoC)
推理速度:30 FPS(实时)
功耗:约 3W(DPU推理部分)
准确率(QAT):91.74%
模型压缩:4×(FP32 → INT8)
资源占用:14.8% LUT / 16.3% BRAM / 4.5% DSP

 
   

二、为什么是 FPGA + INT8,而不是 GPU?

 

在理解论文方法之前,先建立一个认知:为什么虹膜识别的边缘部署要选 FPGA,而不是直接用 GPU 或 NPU?

 

大多数虹膜识别的实际场景——门禁终端、手持采集设备、边检通道——都面临三重约束:功耗限制(不能接大电源、不能过热)、实时要求(识别延迟必须在1~2秒内)、成本约束(工业级GPU几千元起,不适合大规模量产)。

 

FPGA 恰好卡在 MCU(太弱)和 GPU(太贵太耗电)的中间地带:可编程、低功耗、确定性延迟、批量成本可控。而 INT8 量化则是释放 FPGA 算力的关键——将 FP32 浮点权重映射到 8 位整数,计算量减少 4 倍,内存带宽需求降低 4 倍,准确率通常只损失 1~3%。

       

三、论文方法拆解:两阶段量化部署流程

 

这篇论文的方法论清晰,工程性很强,核心是一个两阶段流程:软件量化分析在前,硬件部署验证在后,两个阶段职责分离,互不依赖。

 

Stage I:模型量化(PyTorch → INT8)

 

以 MobileNetV2 为骨干网络,对比了两种量化策略:

 

PTQ(训练后量化):直接对训练好的 FP32 模型进行量化,无需重新训练,速度快,但精度损失约 2~4%。QAT(量化感知训练):在训练过程中模拟量化误差,让模型在低精度环境下"提前适应",精度损失极小。论文最终选择 QAT 方案,准确率达到 91.74%,仅比 FP32 基线低约 1.2%。

 

Stage II:FPGA 部署(Kria KV260)

 

量化后的模型通过 AMD Vitis AI 工具链完成编译和部署。流程如下:QAT 模型(PyTorch)→ Vitis AI Quantizer → INT8 量化模型 → Vitis AI Compiler → DPU 可执行文件 → 部署到 KV260 DPU → 实时推理。

 

KV260 搭载 B1600 配置的 DPU(1600 MAC 并行),整板功耗约 5W,DPU 推理部分约 3W,推理帧率稳定在 30 FPS(每帧 <33ms),模型大小压缩至 1.65 MB,为 FP32 版本的四分之一。

   
   

💡 工程师视角

   

Vitis AI 工具链是这套方案的关键枢纽。它屏蔽了 FPGA 底层的硬件细节,让算法工程师可以直接从 PyTorch 模型出发,完成量化、编译、部署的全流程,无需手写 RTL 或 HLS。这大幅降低了 FPGA 部署的门槛——如果你会 PyTorch + QAT,KV260 的 DPU 部署本质上是可以自学闯通的。

 
   

四、对虹膜识别的工程启示

 

这篇论文虽然做的是人脸关键点,但方法论对虹膜识别的 FPGA 部署几乎可以直接复用。原因很直接:虹膜分割用的轻量级网络(MobileNetV2-based encoder-decoder),与本文使用的骨干网络高度相似。

 

迁移路径一:虹膜分割网络 FPGA 部署

 

虹膜识别的第一步是分割——定位虹膜区域,去除眼皮和睫毛遮挡。同样的 QAT + Vitis AI + KV260 流程,理论上可直接用于虹膜分割网络部署。预期性能:分割推理 >30 FPS(虹膜分割比关键点检测更轻量),功耗 <3W,准确率损失 <2%。

 

迁移路径二:对乾芯™ 芯片的方法论参考

 

虹识技术的乾芯™ 系列采用 FPGA 硬核架构,与 KV260 的 DPU 思路相似:将神经网络计算固化到硬件逻辑。本文验证了核心结论:QAT 量化 + 硬件感知设计,可以在 FPGA 上实现 GPU 级别的推理效率,同时功耗降低一个数量级。这对乾芯™ 未来在多模态识别(虹膜+人脸)场景下的算力分配策略,有直接参考价值。

     

产品层面的直接意义也很清楚:门禁设备无需昂贵的工业 GPU,手持设备电池寿命可以大幅延长,边检通道可以部署更密集的识别点位。30 FPS、3W 的组合,正好卡在嵌入式产品可接受的功耗预算内。

   

五、局限与未解之题

 

当然,这篇论文也有明确的局限,工程师在参考时需要清醒。

 

任务差异:人脸关键点检测 ≠ 虹膜识别。虹膜分割需要处理更细腻的边界(瞳孔/虹膜/巩膜的三级分割),IrisCode 编码对特征精度的要求也高于关键点坐标回归。直接迁移前必须做充分的验证实验。

 

活体检测缺席:INT8 量化的 PAD(活体检测)模块没有在本文中讨论。对于实际部署的虹膜识别系统,活体检测是不可绕过的安全屏障——同期 Notre Dame 团队的论文(arXiv 2603.26976)已经证明,死后虹膜在死后长达 69 天内仍可被识别系统接受。没有 PAD 模块的系统,是不完整的系统。

 

数据集规模:论文训练集规模有限,面部关键点数据在不同光照、角度下的泛化性,与虹膜识别的跨场景泛化需求相比,还需要更大规模的验证。

   
   

▎ 工程启发总结

   

1. QAT 优于 PTQ:量化感知训练是保留准确率的最优路线,1.2% 的损失代价可接受。
2. Vitis AI 是最低摩擦路径:从 PyTorch 到 FPGA 的完整工具链,算法工程师可以自主打通。
3. KV260 是验证平台首选:低成本、开放生态、Zynq MPSoC 架构,适合快速原型验证。
4. 3W 功耗目标是可达的:虹膜识别终端产品的功耗预算现在有了实测锚点。

 
   

结语

 

MobileNetV2 × FPGA × INT8 量化——这个组合在 2026 年正在成为边缘视觉 AI 的标准工程路径。对于虹膜识别行业而言,这不只是一篇论文,而是一份可操作的工程蓝图。

 

30帧、3瓦、91% 的数字背后,是可穿戴虹膜识别、超低功耗边缘终端、大规模部署成本优化的真实可能性。乾芯™ 的硬核之路,与这篇论文的方向高度一致。技术在收敛,方向在明朗。

   
 

— 虹识微刊 —

【声明】内容源于网络
0
0
虹识微刊
虹识技术是国内顶尖的虹膜生物识别企业,公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。
内容 141
粉丝 0
虹识微刊 虹识技术是国内顶尖的虹膜生物识别企业,公司致力于虹膜生物识别核心技术及相关产品的研发、应用服务及产业化。产品可广泛应用于信息安全、国防安全、公共安全、金融安全、出入境安全、智慧城市、智能家居、智能移动终端等领域。
总阅读12
粉丝0
内容141