AV-NAS:多模态视频哈希领域首个引入神经架构搜索的突破性方案
在海量视频检索场景中,传统方法普遍存在“重视觉、轻听觉”问题,且网络结构高度依赖人工设计,难以兼顾高效存储与快速检索。是否存在一种能自动发现最优结构、充分释放多模态潜力的新范式?
北京邮电大学、北京大学、北京航空航天大学与中国电信人工智能研究院联合提出 AV-NAS——多模态视频哈希领域首个引入神经架构搜索(NAS)的方法。该方案首次构建覆盖 Transformer 与 Mamba 的统一搜索空间,不仅自动发现新型跨模态融合机制 CrossMamba,更揭示一项关键发现:在音频时序建模任务中,“CNN + FFN”结构显著优于复杂 Transformer。
该成果已被 CCF-A 类国际会议 SIGIR 2025 录用,代码已开源,为大规模视频检索提供了“存得下、搜得快”的新路径。

论文题目:AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing
论文链接: https://dl.acm.org/doi/10.1145/3726302.3729899
代码链接: https://github.com/iFamilyi/AV-NAS
从“人工设计”到“数据驱动”的范式跃迁
面对 10 亿条短视频,若采用 1000 维浮点向量表示,存储需高达 8TB;而压缩为 64 位二进制哈希码后仅需 8GB,并可通过 XOR 位运算实现近似 $O(1)$ 检索效率。
但当前视频哈希技术面临两大瓶颈:
- 听觉模态缺位:主流方法(如 DSVH、MCMSH、AVH、ConMH)主要依赖关键帧视觉特征,普遍忽略背景音乐、语音等音频线索;少量引入音频的工作亦未深度挖掘声画语义互补性。
- 架构设计受限:现有深度哈希函数多基于专家经验固定选用 MLP、CNN、LSTM 或 Transformer,缺乏对多模态特性的自适应建模能力;而 NAS 在图像等领域已验证其发现更优结构的能力,却长期未在视频哈希中系统应用。
AV-NAS 正是为突破上述局限而生——它摒弃经验主义,构建面向音视频哈希任务的专用搜索空间,让模型在数据驱动下自动寻优网络结构。
统一 Mamba 与 Transformer 的搜索空间
整体架构
AV-NAS 提出多层语义音视频哈希架构搜索框架,在统一空间内自动发现最优多模态哈希网络。整体结构包含输入特征提取、Encoder 编码模块、Fusion 融合模块、Transformation 语义变换模块及 Hash Layer 哈希模块。训练采用 InfoNCE 对比学习损失优化。

图 1:AV-NAS 整体架构
搜索空间
搜索空间由双路 Encoder、Fusion 与 Transformation 三部分组成,涵盖 6 类可选算子:序列建模(M)、跨模态交互(I)、融合(F)、语义变换(T)、一元操作(U)、二元操作(D)。既包含 SelfAttention、CrossAttention、FFN、LN、Skip 等 Transformer 组件,也纳入 SelfSSM、CrossSSM、Up-Down 变换等 Mamba/SSM 元素,并兼容 CNN、MLP、GatedAttention、Add、Hadamard 等通用操作。

图 2:AV-NAS 搜索空间的六类操作划分
编码模块
AV-NAS 为视觉与音频分别设计双路 Encoder,用于提取深层时序语义表示。其核心在于:Encoder 非固定结构,而是通过 NAS 在每个“cell”中自动选择最适配的算子组合。单模态输入记为 X∈ℝm×d,编码骨架采用两段式结构,支持 Up-Down 维度变换(扩维系数 e=2),并允许在 M/U/D 类 cell 中灵活选择 SelfAttention、SelfSSM、Convk、MLP、FFN、LN、Skip 等算子。


该设计具备强可表示性:通过特定算子组合可复现标准 Transformer Encoder;同样可兼容 Mamba 核心形式(SSM + Up-Down)。从而在统一框架下实现 Transformer、Mamba、CNN、MLP 等主流范式的有机融合。
融合模块
视觉与音频经各自 Encoder 后,得到时序特征 Ei 与 Ea。融合模块目标为显式建模声画交互,并输出统一多模态表征。其流程为双向跨模态交互 → 融合汇聚,数学表达为:

其中 I 表示跨模态信息交换算子,F 表示融合算子。
受 Cross-Attention 启发,AV-NAS 提出 CrossSSM 新机制:以 SSM 替代注意力,实现更高效的跨模态对齐与信息注入。同时保留 Add、Hadamard、门控融合等轻量策略,使模型可在“高复杂交互”与“高效率融合”间自主权衡。

图 3:CrossMamba Block

图 4:CrossSSM Module in CrossMamba
语义变换模块
融合后特征仍含冗余与复杂时序依赖,因此引入 Transformation 模块提炼全局语义并生成“检索友好”表示:
h = T(Fo),其中 Fo 为融合输出,h 为最终序列表示,T 是可搜索算子,选项为 SelfAttention 或 SelfSSM。
搜索策略
面对约 7.83×1010 种候选组合,AV-NAS 设计“Coarse Search–Pruning–Fine-tune”三阶段流程:
- 粗搜索(Coarse Search):采用 DARTS 式连续松弛,联合优化权重 W 与架构参数 α,按 epoch 保存验证集 mAP 最优的 (W*, α*),得到超网 N(W*, A(α*))。
- 剪枝(Prune):对各混合算子取 Softmax 概率,保留最高者,确定离散架构 A*;W 作为后续训练初始值。
- 微调(Fine-tune):在固定架构 A* 上重新训练,优化 W,选取验证集最优权重 W**,输出最终模型 A*W**。
InfoNCE 对比学习损失
AV-NAS 使用 InfoNCE 损失训练哈希表示:

其中 τ 为温度系数,sim 通常为余弦相似度。该损失推动同类样本聚集、异类分离,显著提升哈希码判别性。
实验发现:AI 自主选择颠覆人类直觉
研究在 ActivityNet 和 FCVID 两大视频检索基准数据集上完成验证。
主要结果
最优架构新发现
在同一搜索空间下,AV-NAS 在两个数据集上分别获得最优结构 Arch-1(ActivityNet)与 Arch-2(FCVID)。二者 Fusion 与 Transformation 高度一致,差异集中于 Encoder 细节:视觉建模符合专家先验(侧重时空注意力),但音频建模却明显偏向“FFN + CNN”组合,而非主流 Transformer 或 Mamba。

图 5:ActivityNet(Arch-1)与 FCVID(Arch-2)搜索所得架构对比
性能对比
AV-NAS 在 mAP 指标上全面超越 SOTA 方法(见表 1),统计显著性达 p < 0.05。Arch-1 与 Arch-2 分别在对应数据集取得最高 mAP;交叉测试显示二者泛化稳健,性能波动极小。

表 1:mAP、时间效率与模型大小与 SOTA 方法对比
消融实验
专家架构 vs. 自动搜索架构
相比纯 Transformer、Transformer+(加 Cross-Attention)、Mamba 三类专家基线(表 2),AV-NAS 在 ActivityNet 与 FCVID 的 32-bit / 64-bit mAP@100 均居首位:ActivityNet 提升约 3–4%,FCVID 提升约 1%。

表 2:专家架构与 AV-NAS 搜索架构性能对比
进一步分析发现:AV-NAS 在音频建模中偏好 FFN(擅长整合音高、音色、情绪等全局线性特征)与 CNN(擅捕短时局部变化)组合,二者协同更全面刻画音频语义。
单模态 vs. 多模态
对照实验(表 1 行 21–22)表明:移除音频或视觉任一模态均导致性能显著下降,验证跨模态融合的关键价值;视觉占主导,但音频提供稳定增益。
不同 NAS 方法对比
相较 DARTS、ProxylessNAS、SPOS、ENAS(表 1 行 12–20, 23–24),AV-NAS 在时间效率与性能稳定性上优势明显,且在两大数据集均稳定取得最高 mAP;随机搜索结果波动大,凸显系统化 NAS 必要性。
总结
AV-NAS 是多模态视频哈希领域在 NAS 方向的破冰之作。它不仅验证了“自动搜索”优于“手工设计”,更通过数据驱动揭示视听处理本质规律:视觉依赖时空注意力,音频偏好局部与全局的简单组合,跨模态融合则是 Mamba(SSM)的最佳舞台。
该工作为未来大规模视频检索系统设计提供全新范式:不再盲目堆叠复杂 Transformer,而是将结构选择权交还数据,让模型自主寻找“视”与“听”的最优平衡点。

