大数跨境
0
0

中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026

中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026 AI前线
2025-12-05
10
导读:过去几年,基于哈希中心的深度哈希方法逐渐成为大规模图像检索的主流。

作者|陈勇

近年来,基于哈希中心的深度哈希方法成为大规模图像检索主流技术。该类方法通过为每个类别预设固定二值哈希中心作为学习目标,避免了成对或三元组方法高达 O(N²) 的计算复杂度。但随机初始化的哈希中心难以反映真实类间语义关系(如“猫”与“狗”的中心应比“猫”与“汽车”更接近)。

针对此问题,北京邮电大学、北京航空航天大学与中国电信联合提出端到端框架——中心重分配哈希(Center-Reassigned Hashing, CRH)。CRH 在训练哈希函数的同时,动态重分配哈希中心,将语义关系无缝融入中心学习过程,无需额外预训练或离线优化阶段,显著提升检索精度与语义一致性。该工作已被 AAAI 2026 录用,代码已开源。

论文题目:Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function

论文链接:https://www.arxiv.org/abs/2511.12162

代码链接:https://github.com/iFamilyi/CRH

研究背景

图像哈希凭借高效计算与紧凑存储,成为大规模图像检索的核心技术。深度哈希方法显著超越传统浅层方法,现有监督方法主要分为三类:成对、三元组与点态方法。前两者依赖样本局部相似性,计算开销大且难建模全局结构;点态方法直接利用类别标签,具线性复杂度,但早期将哈希等同于分类任务,性能受限。

近年兴起的基于哈希中心的点态方法(如 CSQ、OrthoHash、MDS)为每类预设二值中心并强制表征对齐,虽性能先进,但中心常随机初始化,忽略语义关联。SHC 等两阶段方法先生成语义感知中心再训练哈希函数,却引入高计算开销、破坏端到端可训练性,且分类器估计的相似性可能偏离检索目标。

CRH 的核心创新在于:通过动态重分配机制,实现哈希中心与哈希函数的端到端联合学习,规避两阶段缺陷。

CRH 方法框架

CRH 采用迭代式端到端训练,包含三大组件:哈希码本初始化、哈希函数优化、哈希中心重分配。全过程无显式预训练,训练目标统一。

图1 CRH框架图。上图:汉明空间可视化,展示初始化、哈希码对齐、中心重分配三阶段循环;下图:单类训练目标及多头更新机制。

2.1 哈希中心初始化

构建含 M 个候选中心的哈希码本 Z={zm}Mm=1(M≥C,C 为类别数),每个 zm 为 K 维二值向量,通过均匀采样生成以保障中心间汉明距离足够大。初始时从码本中随机选取 C 个中心分配给各类别。

2.2 哈希函数训练

哈希函数 f(x) 由 ResNet-34 等深度网络实现,输出松弛哈希码。损失函数融合边际交叉熵损失(拉近样本与对应中心、推远其他中心)与量化损失(减小二值化误差):

  • 边际交叉熵损失:ℒCE = −∑i yic log σ(d(hxi, cc) − d(hxi, c¬c))

  • 量化损失:ℒq = ∑i ||hxi − sign(hxi)||22

总体目标函数为 ℒ = ℒCE + λℒq

2.3 哈希中心重分配

训练过程中定期(如每5个epoch)执行重分配:基于当前样本哈希码 hx,计算各类别样本与所有候选中心的平均距离 lcm,构成成本矩阵 L=(lcm)C×M;随后采用贪心或匈牙利算法求解最优分配,最小化总距离 ∑c lc j*c,其中 j*c 为分配给类别 c 的中心索引。该机制在保持中心二值性与分离性前提下,动态优化语义对齐。对多标签数据集,引入权重加权分配误差。

2.4 多头码本设计

为增强语义表达能力,CRH 将每个 K 维中心 zm 分割为 H 个头 {zm1,⋯,zmH},各头维度为 K/H。每个头独立执行中心重分配,获得子中心 cch,最终中心拼接得 cc=concat(cc1,⋯,ccH)。此举将码本容量由 M 扩展至 MH,支持更细粒度语义建模,且不增加实际参数量。

CRH 整体流程交替执行哈希函数优化与中心重分配,如图2所示。

图2 CRH算法流程:中心初始化 → 交替进行哈希函数训练与中心重分配。

实验与结果

实验在 Stanford Cars(单标签)、NABirds(单标签)、MS COCO(多标签)三个基准数据集上开展,评估指标为平均精度 mAP。

3.1 主要结果

表1 CRH 与主流深度哈希方法在不同码长下的 mAP(%)对比。

CRH 在全部数据集与码长(16/32/64位)上均优于 CSQ、OrthoHash、MDS 和 SHC 等先进方法。在 Stanford Cars、NABirds、MSCOCO 上,CRH 相较最优基线分别提升 2.1%–2.6%、4.8%–6.6%、0.4%–4.5%。NABirds 提升最显著,印证其对细粒度语义关系的有效建模能力。

3.2 消融研究

表2 CRH 与消融变体 CRH-M(移除多头)、CRH-U(固定中心)的性能对比。

消融验证表明:移除中心重分配(CRH-U)导致平均 mAP 下降 1.76%–3.08%,证明动态重分配是性能关键;CRH-M 性能优于 CRH-U 但低于完整 CRH,说明多头机制进一步提升语义表达。

3.3 稳健性分析

表3 初始化与更新算法随机性对 mAP 的影响(mean±std)。

CRH 对初始化与贪心算法(Seed)引入的随机性高度稳健,多次运行标准差 <0.4%,表明方法稳定性强。相同初始化下,贪心算法性能优于匈牙利算法,兼顾效率与精度。

3.4 语义质量分析

表4 哈希中心相似性矩阵 Sh 与 CLIP 视觉表征参考相似性矩阵 Sr 的 Pearson 相关系数(PCC)。

CRH 学习所得中心 PCC 显著高于 CSQ、OrthoHash(接近零)及 SHC,表明其能有效捕获有意义的语义结构。图3 进一步揭示 mAP 与 PCC 的强正相关性,印证语义对齐对检索性能的正向作用。

图3 不同方法在 64bits 下的 mAP 与 PCC 关系。

3.5 参数分析

超参数敏感性分析得出关键结论:

  • 码本大小 M:M=2C 时性能与效率最佳平衡;

  • 头维度 d:取满足 d ≥ log₂M 的最小 2 的幂次,兼顾防碰撞与参数效率;

  • 更新频率:高频更新(如每 epoch)可提升 PCC 与 mAP,后期可适当放宽间隔以控制开销。

总结

CRH 提出中心重分配机制,首次实现哈希中心与哈希函数的端到端联合优化,摒弃复杂两阶段流程;多头码本设计进一步增强语义建模能力。实验表明,CRH 学习到语义一致的哈希中心,在单/多标签图像检索任务中全面达到 SOTA 水平,兼具高稳健性与可复现性。

该工作为深度哈希学习提供新范式,凸显动态中心优化的关键价值,未来可拓展至多模态检索、长尾分布等更具挑战性的场景。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 7982
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读41.7k
粉丝0
内容8.0k