SIGIR 2025 | 视频检索新范式！北邮、北大等联合提出AV-NAS：首个音视频哈希搜索架构，让Mamba与Transformer自动“组队”- 大数跨境

首页

SIGIR 2025 | 视频检索新范式！北邮、北大等联合提出AV-NAS：首个音视频哈希搜索架构，让Mamba与Transformer自动“组队”

AI前线

2026-01-05

导读：近日，来自北邮与北大的研究团队提出 AV-NAS，在多模态视频哈希领域首次引入神经架构搜索（NAS），构建了一个同时覆盖 Transformer 与 Mamba 的统一搜索空间。

AV-NAS：多模态视频哈希领域首个引入神经架构搜索的突破性方案

在海量视频检索场景中，传统方法普遍存在“重视觉、轻听觉”问题，且网络结构高度依赖人工设计，难以兼顾高效存储与快速检索。是否存在一种能自动发现最优结构、充分释放多模态潜力的新范式？

北京邮电大学、北京大学、北京航空航天大学与中国电信人工智能研究院联合提出 AV-NAS——多模态视频哈希领域首个引入神经架构搜索（NAS）的方法。该方案首次构建覆盖 Transformer 与 Mamba 的统一搜索空间，不仅自动发现新型跨模态融合机制 CrossMamba，更揭示一项关键发现：在音频时序建模任务中，“CNN + FFN”结构显著优于复杂 Transformer。

该成果已被 CCF-A 类国际会议 SIGIR 2025 录用，代码已开源，为大规模视频检索提供了“存得下、搜得快”的新路径。

论文题目：AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing
论文链接： https://dl.acm.org/doi/10.1145/3726302.3729899
代码链接： https://github.com/iFamilyi/AV-NAS

从“人工设计”到“数据驱动”的范式跃迁

面对 10 亿条短视频，若采用 1000 维浮点向量表示，存储需高达 8TB；而压缩为 64 位二进制哈希码后仅需 8GB，并可通过 XOR 位运算实现近似 $O(1)$ 检索效率。

但当前视频哈希技术面临两大瓶颈：

听觉模态缺位：主流方法（如 DSVH、MCMSH、AVH、ConMH）主要依赖关键帧视觉特征，普遍忽略背景音乐、语音等音频线索；少量引入音频的工作亦未深度挖掘声画语义互补性。
架构设计受限：现有深度哈希函数多基于专家经验固定选用 MLP、CNN、LSTM 或 Transformer，缺乏对多模态特性的自适应建模能力；而 NAS 在图像等领域已验证其发现更优结构的能力，却长期未在视频哈希中系统应用。

AV-NAS 正是为突破上述局限而生——它摒弃经验主义，构建面向音视频哈希任务的专用搜索空间，让模型在数据驱动下自动寻优网络结构。

统一 Mamba 与 Transformer 的搜索空间

整体架构

AV-NAS 提出多层语义音视频哈希架构搜索框架，在统一空间内自动发现最优多模态哈希网络。整体结构包含输入特征提取、Encoder 编码模块、Fusion 融合模块、Transformation 语义变换模块及 Hash Layer 哈希模块。训练采用 InfoNCE 对比学习损失优化。

图 1：AV-NAS 整体架构

搜索空间

搜索空间由双路 Encoder、Fusion 与 Transformation 三部分组成，涵盖 6 类可选算子：序列建模（M）、跨模态交互（I）、融合（F）、语义变换（T）、一元操作（U）、二元操作（D）。既包含 SelfAttention、CrossAttention、FFN、LN、Skip 等 Transformer 组件，也纳入 SelfSSM、CrossSSM、Up-Down 变换等 Mamba/SSM 元素，并兼容 CNN、MLP、GatedAttention、Add、Hadamard 等通用操作。

图 2：AV-NAS 搜索空间的六类操作划分

编码模块

AV-NAS 为视觉与音频分别设计双路 Encoder，用于提取深层时序语义表示。其核心在于：Encoder 非固定结构，而是通过 NAS 在每个“cell”中自动选择最适配的算子组合。单模态输入记为 X∈ℝ^m×d，编码骨架采用两段式结构，支持 Up-Down 维度变换（扩维系数 e=2），并允许在 M/U/D 类 cell 中灵活选择 SelfAttention、SelfSSM、Convk、MLP、FFN、LN、Skip 等算子。

该设计具备强可表示性：通过特定算子组合可复现标准 Transformer Encoder；同样可兼容 Mamba 核心形式（SSM + Up-Down）。从而在统一框架下实现 Transformer、Mamba、CNN、MLP 等主流范式的有机融合。

融合模块

视觉与音频经各自 Encoder 后，得到时序特征 E_i 与 E_a。融合模块目标为显式建模声画交互，并输出统一多模态表征。其流程为双向跨模态交互 → 融合汇聚，数学表达为：

其中 I 表示跨模态信息交换算子，F 表示融合算子。

受 Cross-Attention 启发，AV-NAS 提出 CrossSSM 新机制：以 SSM 替代注意力，实现更高效的跨模态对齐与信息注入。同时保留 Add、Hadamard、门控融合等轻量策略，使模型可在“高复杂交互”与“高效率融合”间自主权衡。

图 3：CrossMamba Block

图 4：CrossSSM Module in CrossMamba

语义变换模块

融合后特征仍含冗余与复杂时序依赖，因此引入 Transformation 模块提炼全局语义并生成“检索友好”表示：
h = T(F_o)，其中 F_o 为融合输出，h 为最终序列表示，T 是可搜索算子，选项为 SelfAttention 或 SelfSSM。

搜索策略

面对约 7.83×10¹⁰ 种候选组合，AV-NAS 设计“Coarse Search–Pruning–Fine-tune”三阶段流程：

粗搜索（Coarse Search）：采用 DARTS 式连续松弛，联合优化权重 W 与架构参数 α，按 epoch 保存验证集 mAP 最优的 (W*, α*)，得到超网 N(W*, A(α*))。
剪枝（Prune）：对各混合算子取 Softmax 概率，保留最高者，确定离散架构 A*；W 作为后续训练初始值。
微调（Fine-tune）：在固定架构 A* 上重新训练，优化 W，选取验证集最优权重 W**，输出最终模型 A*W**。

InfoNCE 对比学习损失

AV-NAS 使用 InfoNCE 损失训练哈希表示：

其中 τ 为温度系数，sim 通常为余弦相似度。该损失推动同类样本聚集、异类分离，显著提升哈希码判别性。

实验发现：AI 自主选择颠覆人类直觉

研究在 ActivityNet 和 FCVID 两大视频检索基准数据集上完成验证。

主要结果

最优架构新发现

在同一搜索空间下，AV-NAS 在两个数据集上分别获得最优结构 Arch-1（ActivityNet）与 Arch-2（FCVID）。二者 Fusion 与 Transformation 高度一致，差异集中于 Encoder 细节：视觉建模符合专家先验（侧重时空注意力），但音频建模却明显偏向“FFN + CNN”组合，而非主流 Transformer 或 Mamba。

图 5：ActivityNet（Arch-1）与 FCVID（Arch-2）搜索所得架构对比

性能对比

AV-NAS 在 mAP 指标上全面超越 SOTA 方法（见表 1），统计显著性达 p < 0.05。Arch-1 与 Arch-2 分别在对应数据集取得最高 mAP；交叉测试显示二者泛化稳健，性能波动极小。

表 1：mAP、时间效率与模型大小与 SOTA 方法对比

消融实验

专家架构 vs. 自动搜索架构

相比纯 Transformer、Transformer+（加 Cross-Attention）、Mamba 三类专家基线（表 2），AV-NAS 在 ActivityNet 与 FCVID 的 32-bit / 64-bit mAP@100 均居首位：ActivityNet 提升约 3–4%，FCVID 提升约 1%。

表 2：专家架构与 AV-NAS 搜索架构性能对比