作者|陈勇
近年来,基于哈希中心的深度哈希方法成为大规模图像检索主流技术。该类方法通过为每个类别预设固定二值哈希中心作为学习目标,避免了成对或三元组方法高达 O(N²) 的计算复杂度。但随机初始化的哈希中心难以反映真实类间语义关系(如“猫”与“狗”的中心应比“猫”与“汽车”更接近)。
针对此问题,北京邮电大学、北京航空航天大学与中国电信联合提出端到端框架——中心重分配哈希(Center-Reassigned Hashing, CRH)。CRH 在训练哈希函数的同时,动态重分配哈希中心,将语义关系无缝融入中心学习过程,无需额外预训练或离线优化阶段,显著提升检索精度与语义一致性。该工作已被 AAAI 2026 录用,代码已开源。

论文题目:Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function
论文链接:https://www.arxiv.org/abs/2511.12162
代码链接:https://github.com/iFamilyi/CRH
研究背景
图像哈希凭借高效计算与紧凑存储,成为大规模图像检索的核心技术。深度哈希方法显著超越传统浅层方法,现有监督方法主要分为三类:成对、三元组与点态方法。前两者依赖样本局部相似性,计算开销大且难建模全局结构;点态方法直接利用类别标签,具线性复杂度,但早期将哈希等同于分类任务,性能受限。
近年兴起的基于哈希中心的点态方法(如 CSQ、OrthoHash、MDS)为每类预设二值中心并强制表征对齐,虽性能先进,但中心常随机初始化,忽略语义关联。SHC 等两阶段方法先生成语义感知中心再训练哈希函数,却引入高计算开销、破坏端到端可训练性,且分类器估计的相似性可能偏离检索目标。
CRH 的核心创新在于:通过动态重分配机制,实现哈希中心与哈希函数的端到端联合学习,规避两阶段缺陷。
CRH 方法框架
CRH 采用迭代式端到端训练,包含三大组件:哈希码本初始化、哈希函数优化、哈希中心重分配。全过程无显式预训练,训练目标统一。

图1 CRH框架图。上图:汉明空间可视化,展示初始化、哈希码对齐、中心重分配三阶段循环;下图:单类训练目标及多头更新机制。
2.1 哈希中心初始化
构建含 M 个候选中心的哈希码本 Z={zm}Mm=1(M≥C,C 为类别数),每个 zm 为 K 维二值向量,通过均匀采样生成以保障中心间汉明距离足够大。初始时从码本中随机选取 C 个中心分配给各类别。
2.2 哈希函数训练
哈希函数 f(x) 由 ResNet-34 等深度网络实现,输出松弛哈希码。损失函数融合边际交叉熵损失(拉近样本与对应中心、推远其他中心)与量化损失(减小二值化误差):
边际交叉熵损失:ℒCE = −∑i yic log σ(d(hxi, cc) − d(hxi, c¬c))
量化损失:ℒq = ∑i ||hxi − sign(hxi)||22
总体目标函数为 ℒ = ℒCE + λℒq。
2.3 哈希中心重分配
训练过程中定期(如每5个epoch)执行重分配:基于当前样本哈希码 hx,计算各类别样本与所有候选中心的平均距离 lcm,构成成本矩阵 L=(lcm)C×M;随后采用贪心或匈牙利算法求解最优分配,最小化总距离 ∑c lc j*c,其中 j*c 为分配给类别 c 的中心索引。该机制在保持中心二值性与分离性前提下,动态优化语义对齐。对多标签数据集,引入权重加权分配误差。
2.4 多头码本设计
为增强语义表达能力,CRH 将每个 K 维中心 zm 分割为 H 个头 {zm1,⋯,zmH},各头维度为 K/H。每个头独立执行中心重分配,获得子中心 cch,最终中心拼接得 cc=concat(cc1,⋯,ccH)。此举将码本容量由 M 扩展至 MH,支持更细粒度语义建模,且不增加实际参数量。
CRH 整体流程交替执行哈希函数优化与中心重分配,如图2所示。

图2 CRH算法流程:中心初始化 → 交替进行哈希函数训练与中心重分配。
实验与结果
实验在 Stanford Cars(单标签)、NABirds(单标签)、MS COCO(多标签)三个基准数据集上开展,评估指标为平均精度 mAP。
3.1 主要结果

表1 CRH 与主流深度哈希方法在不同码长下的 mAP(%)对比。
CRH 在全部数据集与码长(16/32/64位)上均优于 CSQ、OrthoHash、MDS 和 SHC 等先进方法。在 Stanford Cars、NABirds、MSCOCO 上,CRH 相较最优基线分别提升 2.1%–2.6%、4.8%–6.6%、0.4%–4.5%。NABirds 提升最显著,印证其对细粒度语义关系的有效建模能力。
3.2 消融研究

表2 CRH 与消融变体 CRH-M(移除多头)、CRH-U(固定中心)的性能对比。
消融验证表明:移除中心重分配(CRH-U)导致平均 mAP 下降 1.76%–3.08%,证明动态重分配是性能关键;CRH-M 性能优于 CRH-U 但低于完整 CRH,说明多头机制进一步提升语义表达。
3.3 稳健性分析

表3 初始化与更新算法随机性对 mAP 的影响(mean±std)。
CRH 对初始化与贪心算法(Seed)引入的随机性高度稳健,多次运行标准差 <0.4%,表明方法稳定性强。相同初始化下,贪心算法性能优于匈牙利算法,兼顾效率与精度。
3.4 语义质量分析

表4 哈希中心相似性矩阵 Sh 与 CLIP 视觉表征参考相似性矩阵 Sr 的 Pearson 相关系数(PCC)。
CRH 学习所得中心 PCC 显著高于 CSQ、OrthoHash(接近零)及 SHC,表明其能有效捕获有意义的语义结构。图3 进一步揭示 mAP 与 PCC 的强正相关性,印证语义对齐对检索性能的正向作用。

图3 不同方法在 64bits 下的 mAP 与 PCC 关系。
3.5 参数分析
超参数敏感性分析得出关键结论:
码本大小 M:M=2C 时性能与效率最佳平衡;
头维度 d:取满足 d ≥ log₂M 的最小 2 的幂次,兼顾防碰撞与参数效率;
更新频率:高频更新(如每 epoch)可提升 PCC 与 mAP,后期可适当放宽间隔以控制开销。
总结
CRH 提出中心重分配机制,首次实现哈希中心与哈希函数的端到端联合优化,摒弃复杂两阶段流程;多头码本设计进一步增强语义建模能力。实验表明,CRH 学习到语义一致的哈希中心,在单/多标签图像检索任务中全面达到 SOTA 水平,兼具高稳健性与可复现性。
该工作为深度哈希学习提供新范式,凸显动态中心优化的关键价值,未来可拓展至多模态检索、长尾分布等更具挑战性的场景。

