虹识微刊 | 2026年第14期
当 Sam Altman 的 Worldcoin 项目宣称要用虹膜识别为全球每个人颁发"数字身份证"时,工程师们提出了一个无法回避的问题:600万注册用户的虹膜代码(IrisCodes)存在哪里?谁能看到它们?
这不是营销话术,是个密码学工程问题。
2026年1月,来自法国国家信息与自动化研究院(Inria)、三星研究院和首尔大学的联合团队在 arXiv 发布了一篇论文:《Private Iris Recognition with High-Performance FHE》(arXiv:2601.17561)。他们的核心主张是:用门限全同态加密(ThFHE) 完成虹膜比对,让服务器在不解密任何虹膜数据的前提下完成身份验证。
同一时间,帝国理工学院的 Karakosta 等人发布了综述《Privacy-Preserving Iris Recognition: Performance Challenges and Outlook》(arXiv:2503.21408),系统梳理了现有隐私增强方案的性能瓶颈。两篇论文合在一起,划出了这个子领域的当前边界。
为什么虹膜数据的隐私保护比指纹更紧迫
虹膜识别系统的精度来自虹膜代码的唯一性。Daugman 1993年提出的经典算法将虹膜纹理编码为 2048bit 的二进制串,在同一人的两眼之间,归一化汉明距离(NHD)约为 0.08;不同人之间,NHD 的分布均值约为 0.45,标准差约为 0.02。
这种极高的区分度是一把双刃剑:正因为不同个体的虹膜代码几乎不可能相似,一旦虹膜数据库泄露,无法像密码那样重置。你没有备用虹膜。
理论上,解决方案已知多年:
- • 可撤销生物特征(Cancelable Biometrics):对原始特征施加不可逆变换,使得泄露的是变换后模板而非原始生物特征
- • 同态加密(HE):在密文空间直接计算,服务器全程不见明文
- • 安全多方计算(SS-MPC):将秘密分片到多台服务器,任意少数服务器合谋均无法重建原始数据
- • 零知识证明(ZKP):证明"我的虹膜匹配"而无需透露虹膜本身
但每一种方案都在工程上遇到了性能墙。

Bloemen 方案:SS-MPC 的工程天花板
World ID 的现有隐私方案由 Bloemen 等人在 2024-2025 年间构建,采用 2-out-of-3 秘密共享 MPC。
安全模型很清晰:三台服务器各持有虹膜代码的一个分片,只要攻击者不能同时攻陷其中两台,原始虹膜代码就无法重建。单次验证的数学结果(匹配/不匹配)不泄露任何额外信息。
但性能数字令人警醒:
| 指标 | Bloemen SS-MPC |
|---|---|
| 匹配规模 | 32 个查询 vs. 2²² 条记录 |
| 延迟 | ~2 秒 |
| 硬件 | 24 块 H100 GPU |
| 通信轮次 | >40 轮 |
| 通信数据量 | 81 GB/服务器 |
| 网络要求 | >3 Tb/s |
24块 H100 GPU、3 Tb/s 网速做 32 个查询——这是数据中心级基础设施才能运行的方案。对大多数组织而言,这不是产品,是一个概念验证。
ThFHE 方案:加密数据库 + 加密查询
Ha 等人转向了另一条路:门限全同态加密(Threshold FHE,基于 CKKS 方案)。
FHE 的核心承诺是"在密文上直接计算"。虹膜代码的比对本质上是计算两个二进制向量之间的汉明距离——这个操作在 CKKS 方案下可以用浮点近似表示,转化为加密状态下的内积运算。
"门限"版本(ThFHE)进一步分散了密钥控制权:解密需要多个持有密钥分片的参与方协作,单一服务器无法独立解密任何数据。
他们的系统在以下设置下完成了验证:
| 指标 | Ha et al. ThFHE |
|---|---|
| 匹配规模 | 32 个查询 vs. 7×2¹⁴ 条记录(约 11.5 万) |
| 延迟(计算阶段) | ~1.8 秒 |
| 硬件 | 8 块 RTX-5090 GPU |
| 通信轮次 | 2-3 轮 |
| 安全模型 | 无需可信初始化,数据库可公开加密存储 |
关键对比:用 1/3 的 GPU 数量,完成了相当规模的匹配(11.5万 vs. 420万,但每 GPU 处理吞吐量大幅提升),通信轮次从 40+ 轮降至 2-3 轮。
更重要的是安全性的质性提升:
- • 无需可信初始化:MPC 方案通常需要一个诚实的设置阶段,ThFHE 不需要
- • 数据库可公开存储:加密后的虹膜数据库即使完全公开,也无法推导出原始虹膜代码
- • 主动安全可扩展:在性能损失可控的情况下,可以添加防止恶意参与方的主动安全层
技术实现的关键突破点
Ha 等人方案能取得这样的性能,有两个核心技术贡献值得工程师关注:
1. FHE 线性代数加速
虹膜比对的计算核心是在密文空间计算 IrisCode 之间的汉明距离。论文借助近期 FHE 线性代数的进展,将批量匹配转化为矩阵运算,并通过 int8 GPU 操作 大幅提升吞吐量。关键洞察:CKKS 的浮点近似足够表示汉明距离比较中所需的精度,同时保持了 FHE 的可组合性。
2. 密文数量早期压缩
系统在流水线尽可能早的阶段压缩需要处理的密文数量。这一"早过滤"策略减少了后续计算的规模——类似数据库查询中的谓词下推,但应用于密码学流水线。
Karakosta 综述:未解决的性能缺口
帝国理工的综述论文从另一个角度提供了背景。Karakosta 等人系统回顾了现有隐私增强虹膜识别方案,将其分为三类:
- 1. 特征变换方案(可撤销生物特征):计算开销最低,但提供的隐私保证有限——攻击者若知道变换函数,仍可暴力破解
- 2. 加密协议方案(HE/MPC):强隐私保证,但延迟高、资源消耗大
- 3. 混合方案:在客户端执行轻量变换,服务端执行加密计算
综述的核心发现:现有方案在"隐私保证强度"与"系统吞吐量"之间存在近似 3-4 个数量级的差距。即便是性能最好的 MPC/FHE 方案,在千万级用户规模下的实时匹配仍是工程挑战。
这是在设立坐标系:Ha 等人的 ThFHE 工作填补了这个差距的一部分,但距离实际部署级别的性能(例如 World ID 的千万用户规模),仍有工作要做。

对工程实践的启示
如果你在设计一个需要隐私保护的生物识别后端,这两篇论文给出了几个可操作的判断:
短期内可落地的方案:
- • 2-3 服务器的 SS-MPC(如 Bloemen 方案的轻量变体),适合高价值、低频次认证场景(如护照验证)
- • 可撤销生物特征 + 服务端加密存储,适合对隐私保证要求中等的企业场景
中期值得跟踪的方向:
- • ThFHE 在消费级 GPU 上的工程优化——Ha 等人用的是 RTX-5090,随着硬件迭代,3-5 年内这个门槛会降低
- • 客户端预处理 + 轻量 FHE 的混合架构,将部分计算负担转移到端侧
长期的关键问题:
- • 量子计算威胁:CKKS 基于格密码,目前认为后量子安全;但 MPC 方案的部分组件需要审查
- • 法规压力:GDPR、中国《个人信息保护法》都将生物特征列为敏感数据,不可逆性要求使得隐私增强方案从"加分项"变成"合规要求"
虹识技术的视角
从产品工程角度看,这类研究对虹识技术的近期产品线直接相关度有限——我们的客户通常是公安、金融、海关等场景,数据存储和访问控制由部署方自行管理。
但有两个方向值得提前布局:
- 1. 出口场景:面向欧美市场的产品,GDPR 合规会越来越直接要求可撤销模板或加密存储的书面方案,现在是研究准备阶段
- 2. 云端 BIOMETRIC-AS-A-SERVICE:若未来虹识在 SaaS 模式下提供 API,ThFHE 类方案将是核心差异化的隐私架构选项
Worldcoin 的 World ID 项目是这个领域最大规模的实际部署压力测试。他们遇到的工程问题,会比学术界早 3-5 年暴露真实瓶颈——密切跟踪这个项目的技术更新,比单纯读论文更有效率。
参考论文:
- • Ha, J. et al. "Private Iris Recognition with High-Performance FHE." arXiv:2601.17561 (January 2026)
- • Karakosta, C. et al. "Privacy-Preserving Iris Recognition: Performance Challenges and Outlook." arXiv:2503.21408 (March 2026)
- • Bloemen, N. et al. World ID SS-MPC Design Document (2024-2025)
- • Daugman, J. "High Confidence Visual Recognition of Persons by a Test of Statistical Independence." IEEE TPAMI, 1993
虹识微刊 · 第14期 · 2026年4月9日\ 关注虹膜识别技术前沿,服务工程师与研究员

