大数跨境
0
0

SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”

SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队” AI前线
2026-01-05
13
导读:近日,来自北邮与北大的研究团队提出 AV-NAS,在多模态视频哈希领域首次引入神经架构搜索(NAS),构建了一个同时覆盖 Transformer 与 Mamba 的统一搜索空间。

AV-NAS:多模态视频哈希领域首个引入神经架构搜索的突破性方案

在海量视频检索场景中,传统方法普遍存在“重视觉、轻听觉”问题,且网络结构高度依赖人工设计,难以兼顾高效存储与快速检索。是否存在一种能自动发现最优结构、充分释放多模态潜力的新范式?

北京邮电大学、北京大学、北京航空航天大学与中国电信人工智能研究院联合提出 AV-NAS——多模态视频哈希领域首个引入神经架构搜索(NAS)的方法。该方案首次构建覆盖 Transformer 与 Mamba 的统一搜索空间,不仅自动发现新型跨模态融合机制 CrossMamba,更揭示一项关键发现:在音频时序建模任务中,“CNN + FFN”结构显著优于复杂 Transformer。

该成果已被 CCF-A 类国际会议 SIGIR 2025 录用,代码已开源,为大规模视频检索提供了“存得下、搜得快”的新路径。

论文题目:AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing
论文链接: https://dl.acm.org/doi/10.1145/3726302.3729899
代码链接: https://github.com/iFamilyi/AV-NAS

从“人工设计”到“数据驱动”的范式跃迁

面对 10 亿条短视频,若采用 1000 维浮点向量表示,存储需高达 8TB;而压缩为 64 位二进制哈希码后仅需 8GB,并可通过 XOR 位运算实现近似 $O(1)$ 检索效率。

但当前视频哈希技术面临两大瓶颈:

  • 听觉模态缺位:主流方法(如 DSVH、MCMSH、AVH、ConMH)主要依赖关键帧视觉特征,普遍忽略背景音乐、语音等音频线索;少量引入音频的工作亦未深度挖掘声画语义互补性。
  • 架构设计受限:现有深度哈希函数多基于专家经验固定选用 MLP、CNN、LSTM 或 Transformer,缺乏对多模态特性的自适应建模能力;而 NAS 在图像等领域已验证其发现更优结构的能力,却长期未在视频哈希中系统应用。

AV-NAS 正是为突破上述局限而生——它摒弃经验主义,构建面向音视频哈希任务的专用搜索空间,让模型在数据驱动下自动寻优网络结构。

统一 Mamba 与 Transformer 的搜索空间

整体架构

AV-NAS 提出多层语义音视频哈希架构搜索框架,在统一空间内自动发现最优多模态哈希网络。整体结构包含输入特征提取、Encoder 编码模块、Fusion 融合模块、Transformation 语义变换模块及 Hash Layer 哈希模块。训练采用 InfoNCE 对比学习损失优化。

图 1:AV-NAS 整体架构

搜索空间

搜索空间由双路 Encoder、Fusion 与 Transformation 三部分组成,涵盖 6 类可选算子:序列建模(M)、跨模态交互(I)、融合(F)、语义变换(T)、一元操作(U)、二元操作(D)。既包含 SelfAttention、CrossAttention、FFN、LN、Skip 等 Transformer 组件,也纳入 SelfSSM、CrossSSM、Up-Down 变换等 Mamba/SSM 元素,并兼容 CNN、MLP、GatedAttention、Add、Hadamard 等通用操作。

图 2:AV-NAS 搜索空间的六类操作划分

编码模块

AV-NAS 为视觉与音频分别设计双路 Encoder,用于提取深层时序语义表示。其核心在于:Encoder 非固定结构,而是通过 NAS 在每个“cell”中自动选择最适配的算子组合。单模态输入记为 X∈ℝm×d,编码骨架采用两段式结构,支持 Up-Down 维度变换(扩维系数 e=2),并允许在 M/U/D 类 cell 中灵活选择 SelfAttention、SelfSSM、Convk、MLP、FFN、LN、Skip 等算子。

该设计具备强可表示性:通过特定算子组合可复现标准 Transformer Encoder;同样可兼容 Mamba 核心形式(SSM + Up-Down)。从而在统一框架下实现 Transformer、Mamba、CNN、MLP 等主流范式的有机融合。

融合模块

视觉与音频经各自 Encoder 后,得到时序特征 Ei 与 Ea。融合模块目标为显式建模声画交互,并输出统一多模态表征。其流程为双向跨模态交互 → 融合汇聚,数学表达为:

其中 I 表示跨模态信息交换算子,F 表示融合算子。

受 Cross-Attention 启发,AV-NAS 提出 CrossSSM 新机制:以 SSM 替代注意力,实现更高效的跨模态对齐与信息注入。同时保留 Add、Hadamard、门控融合等轻量策略,使模型可在“高复杂交互”与“高效率融合”间自主权衡。


图 3:CrossMamba Block


图 4:CrossSSM Module in CrossMamba

语义变换模块

融合后特征仍含冗余与复杂时序依赖,因此引入 Transformation 模块提炼全局语义并生成“检索友好”表示:
h = T(Fo),其中 Fo 为融合输出,h 为最终序列表示,T 是可搜索算子,选项为 SelfAttention 或 SelfSSM。

搜索策略

面对约 7.83×1010 种候选组合,AV-NAS 设计“Coarse Search–Pruning–Fine-tune”三阶段流程:

  • 粗搜索(Coarse Search):采用 DARTS 式连续松弛,联合优化权重 W 与架构参数 α,按 epoch 保存验证集 mAP 最优的 (W*, α*),得到超网 N(W*, A(α*))。
  • 剪枝(Prune):对各混合算子取 Softmax 概率,保留最高者,确定离散架构 A*;W 作为后续训练初始值。
  • 微调(Fine-tune):在固定架构 A* 上重新训练,优化 W,选取验证集最优权重 W**,输出最终模型 A*W**。

InfoNCE 对比学习损失

AV-NAS 使用 InfoNCE 损失训练哈希表示:

其中 τ 为温度系数,sim 通常为余弦相似度。该损失推动同类样本聚集、异类分离,显著提升哈希码判别性。

实验发现:AI 自主选择颠覆人类直觉

研究在 ActivityNet 和 FCVID 两大视频检索基准数据集上完成验证。

主要结果

最优架构新发现

在同一搜索空间下,AV-NAS 在两个数据集上分别获得最优结构 Arch-1(ActivityNet)与 Arch-2(FCVID)。二者 Fusion 与 Transformation 高度一致,差异集中于 Encoder 细节:视觉建模符合专家先验(侧重时空注意力),但音频建模却明显偏向“FFN + CNN”组合,而非主流 Transformer 或 Mamba。


图 5:ActivityNet(Arch-1)与 FCVID(Arch-2)搜索所得架构对比

性能对比

AV-NAS 在 mAP 指标上全面超越 SOTA 方法(见表 1),统计显著性达 p < 0.05。Arch-1 与 Arch-2 分别在对应数据集取得最高 mAP;交叉测试显示二者泛化稳健,性能波动极小。


表 1:mAP、时间效率与模型大小与 SOTA 方法对比

消融实验

专家架构 vs. 自动搜索架构

相比纯 Transformer、Transformer+(加 Cross-Attention)、Mamba 三类专家基线(表 2),AV-NAS 在 ActivityNet 与 FCVID 的 32-bit / 64-bit mAP@100 均居首位:ActivityNet 提升约 3–4%,FCVID 提升约 1%。


表 2:专家架构与 AV-NAS 搜索架构性能对比

进一步分析发现:AV-NAS 在音频建模中偏好 FFN(擅长整合音高、音色、情绪等全局线性特征)与 CNN(擅捕短时局部变化)组合,二者协同更全面刻画音频语义。

单模态 vs. 多模态

对照实验(表 1 行 21–22)表明:移除音频或视觉任一模态均导致性能显著下降,验证跨模态融合的关键价值;视觉占主导,但音频提供稳定增益。

不同 NAS 方法对比

相较 DARTS、ProxylessNAS、SPOS、ENAS(表 1 行 12–20, 23–24),AV-NAS 在时间效率与性能稳定性上优势明显,且在两大数据集均稳定取得最高 mAP;随机搜索结果波动大,凸显系统化 NAS 必要性。

总结

AV-NAS 是多模态视频哈希领域在 NAS 方向的破冰之作。它不仅验证了“自动搜索”优于“手工设计”,更通过数据驱动揭示视听处理本质规律:视觉依赖时空注意力,音频偏好局部与全局的简单组合,跨模态融合则是 Mamba(SSM)的最佳舞台。

该工作为未来大规模视频检索系统设计提供全新范式:不再盲目堆叠复杂 Transformer,而是将结构选择权交还数据,让模型自主寻找“视”与“听”的最优平衡点。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 8042
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读61.3k
粉丝0
内容8.0k