

中心动态重分配哈希，北邮团队提出并开源CRH项目 | AAAI 2026

AI前线

2025-12-05

导读：过去几年，基于哈希中心的深度哈希方法逐渐成为大规模图像检索的主流。

作者｜陈勇

近年来，基于哈希中心的深度哈希方法成为大规模图像检索主流技术。该类方法通过为每个类别预设固定二值哈希中心作为学习目标，避免了成对或三元组方法高达 O(N²) 的计算复杂度。但随机初始化的哈希中心难以反映真实类间语义关系（如“猫”与“狗”的中心应比“猫”与“汽车”更接近）。

针对此问题，北京邮电大学、北京航空航天大学与中国电信联合提出端到端框架——中心重分配哈希（Center-Reassigned Hashing, CRH）。CRH 在训练哈希函数的同时，动态重分配哈希中心，将语义关系无缝融入中心学习过程，无需额外预训练或离线优化阶段，显著提升检索精度与语义一致性。该工作已被 AAAI 2026 录用，代码已开源。

论文题目：Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function

论文链接：https://www.arxiv.org/abs/2511.12162

代码链接：https://github.com/iFamilyi/CRH

研究背景

图像哈希凭借高效计算与紧凑存储，成为大规模图像检索的核心技术。深度哈希方法显著超越传统浅层方法，现有监督方法主要分为三类：成对、三元组与点态方法。前两者依赖样本局部相似性，计算开销大且难建模全局结构；点态方法直接利用类别标签，具线性复杂度，但早期将哈希等同于分类任务，性能受限。

近年兴起的基于哈希中心的点态方法（如 CSQ、OrthoHash、MDS）为每类预设二值中心并强制表征对齐，虽性能先进，但中心常随机初始化，忽略语义关联。SHC 等两阶段方法先生成语义感知中心再训练哈希函数，却引入高计算开销、破坏端到端可训练性，且分类器估计的相似性可能偏离检索目标。

CRH 的核心创新在于：通过动态重分配机制，实现哈希中心与哈希函数的端到端联合学习，规避两阶段缺陷。

CRH 方法框架

CRH 采用迭代式端到端训练，包含三大组件：哈希码本初始化、哈希函数优化、哈希中心重分配。全过程无显式预训练，训练目标统一。

图1 CRH框架图。上图：汉明空间可视化，展示初始化、哈希码对齐、中心重分配三阶段循环；下图：单类训练目标及多头更新机制。

2.1 哈希中心初始化

构建含 M 个候选中心的哈希码本 Z={z_m}^M_m=1（M≥C，C 为类别数），每个 z_m 为 K 维二值向量，通过均匀采样生成以保障中心间汉明距离足够大。初始时从码本中随机选取 C 个中心分配给各类别。

2.2 哈希函数训练

哈希函数 f(x) 由 ResNet-34 等深度网络实现，输出松弛哈希码。损失函数融合边际交叉熵损失（拉近样本与对应中心、推远其他中心）与量化损失（减小二值化误差）：

边际交叉熵损失：ℒ_CE = −∑_i y_ic log σ(d(h_{x_i}, c_c) − d(h_{x_i}, c_¬c))
量化损失：ℒ_q = ∑_i ||h_{x_i} − sign(h_{x_i})||₂²

总体目标函数为 ℒ = ℒ_CE + λℒ_q。

2.3 哈希中心重分配

训练过程中定期（如每5个epoch）执行重分配：基于当前样本哈希码 h_x，计算各类别样本与所有候选中心的平均距离 l_cm，构成成本矩阵 L=(l_cm)_C×M；随后采用贪心或匈牙利算法求解最优分配，最小化总距离 ∑_c l_{c j^*_c}，其中 j^*_c 为分配给类别 c 的中心索引。该机制在保持中心二值性与分离性前提下，动态优化语义对齐。对多标签数据集，引入权重加权分配误差。

2.4 多头码本设计

为增强语义表达能力，CRH 将每个 K 维中心 z_m 分割为 H 个头 {z_m¹,⋯,z_m^H}，各头维度为 K/H。每个头独立执行中心重分配，获得子中心 c_c^h，最终中心拼接得 c_c=concat(c_c¹,⋯,c_c^H)。此举将码本容量由 M 扩展至 M^H，支持更细粒度语义建模，且不增加实际参数量。

CRH 整体流程交替执行哈希函数优化与中心重分配，如图2所示。

图2 CRH算法流程：中心初始化 → 交替进行哈希函数训练与中心重分配。

实验与结果

实验在 Stanford Cars（单标签）、NABirds（单标签）、MS COCO（多标签）三个基准数据集上开展，评估指标为平均精度 mAP。

3.1 主要结果

表1 CRH 与主流深度哈希方法在不同码长下的 mAP（%）对比。

CRH 在全部数据集与码长（16/32/64位）上均优于 CSQ、OrthoHash、MDS 和 SHC 等先进方法。在 Stanford Cars、NABirds、MSCOCO 上，CRH 相较最优基线分别提升 2.1%–2.6%、4.8%–6.6%、0.4%–4.5%。NABirds 提升最显著，印证其对细粒度语义关系的有效建模能力。