大数跨境

前沿:中科院声学所等团队开发基于大规模合成数据的预训练声事件定位检测网络

前沿:中科院声学所等团队开发基于大规模合成数据的预训练声事件定位检测网络 两江科技评论
2026-01-26
1
导读:近日,来自中国科学院声学研究所、西交利物浦大学、英国萨里大学等多家机构的研究团队在期刊上发表一项研究,提出了预训练 SELD 网络(PSELDNets),通过大规模合成数据集训练与参数高效微调方法,为
图片
文章来源:21dB声学人
声事件定位与检测(Sound Event Localization and Detection,SELD)是一项融合声音事件检测(SED)与到达方向(DOA)估计的综合任务,其目标是在时间维度上判断“发生了什么声音”,并在空间维度上估计“声音来自哪里”。

由于同时涉及声学建模、时序建模与空间信息推断,SELD 被认为是机器听觉中难度较高、同时也更贴近真实应用需求的研究方向,在机器人感知、智能监控、沉浸式音频与智能环境感知等领域具有重要应用价值。

近年来,基于深度学习的 SELD 方法在特定数据集和场景中取得了较为稳定的性能,但也逐渐显现出一些共性问题:模型通常依赖场景定制化训练,适应新声学环境或新类别时需要重新训练或微调;同时,真实空间音频数据采集成本较高,限制了模型规模与泛化能力的进一步提升。

近日,来自中国科学院声学研究所、西交利物浦大学、英国萨里大学等多家机构的研究团队在期刊IEEE/ACM Transactions on Audio, Speech, and Language Processing》上发表一项研究,提出了预训练 SELD 网络(PSELDNets),通过大规模合成数据集训练与参数高效微调方法,为 SELD 技术的场景适配提供了新的解决方案。


研究核心设计

大规模合成数据集构建

为解决数据稀缺问题,研究团队构建了总时长约 1167 小时的合成数据集。该数据集以 FSD50K 的单源声事件片段为基础,通过与仿真空间房间脉冲响应(SRIR)卷积生成,涵盖 170 类日常声事件。

数据集构建过程中,团队遵循 AudioSet 本体组织类别,确保覆盖各类日常声音;优先选择单标签片段,保证空间声事件的准确呈现;同时注重标签质量,筛选标签密度高的音频片段,平衡了数据规模与标注可靠性。合成数据中包含静态与移动声源,以及不同混响特性的声学环境,为模型训练提供了丰富的场景多样性。

PSELDNets 模型架构

PSELDNets 借鉴了 SEC 领域表现优异的预训练模型架构,包括 PANNs、PaSST 和 HTS-AT,构建了三种网络变体,均能从多通道频谱图与强度向量中提取空间特征与全局上下文信息:
图1 纯基于Transformer的音频网络(如PaSST和HTS-AT)的通用框架。它描绘了从音频频谱图到输出预测的整体流程,包括分块(Patching)、嵌入(Embedding)和Transformer编码器处理等关键步骤。

  • CNN14-Conformer:在 CNN14 后端额外堆叠 Conformer 块,CNN 提取局部细粒度特征,Conformer 捕捉音频序列的局部与全局依赖关系
  • PaSST:采用 Transformer 编码器架构,通过 Patchout 技术省略部分输入序列,提升模型泛化能力并降低计算复杂度;
  • HTS-AT:结合 Swin Transformer 与令牌语义模块,通过移位窗口注意力机制限制在局部非重叠窗口内计算自注意力,生成逐时间戳的激活图用于预测。

模型采用 mACCDOA 输出格式,通过辅助复制置换不变训练(ADPIT),有效处理同类重叠声事件的定位检测问题,实现对声事件类别、起止时间及笛卡尔坐标 DOA 的联合预测。

高效微调方法 AdapterBit

针对低资源场景下的模型适配需求,研究团队提出了数据高效微调方法 AdapterBit。该方法基于参数高效微调(PEFT)理念,仅微调新增的多层感知机(MLP)适配器与模型偏置项,冻结预训练模型的核心参数,避免了全参数微调可能导致的灾难性干扰。

图2 AdapterBit结构示意图

Adapter 模块通过缩放因子平衡预训练模型的通用特征与场景特定特征,零初始化设计确保微调初期模型状态与预训练阶段一致。针对 SELD 任务对多通道音频的需求,AdapterBit 支持单声道数据适配,通过将单声道信号理论一阶 Ambisonics 响应卷积生成伪 FOA 信号,满足模型输入要求,降低了采集门槛

实验验证与性能表现

研究团队在合成测试集、多个公开数据集及自建真实场景数据集上对 PSELDNets 进行了全面验证:
  • 合成测试集:使用 TAU-SRIR DB 的实测 SRIR 进行评估,PSELDNets 的类依赖定位召回率(LRCD) 超过 32%类依赖定位误差(LECD) 约为 17°,表现符合预期
  • 公开数据集:在 L3DAS22 Task 2、DCASE 2021 Task 3、STARSS23 等公开数据集上,PSELDNets 经全参数微调后,在综合性能指标(ℰSELD)上均优于参赛系统报告的最佳单模型经后处理(移动平均 + 动态阈值)后,单模型在 DCASE 2021 Task 3 上的 ℰSELD 与集成模型相当
  • 真实场景数据集:团队自建室内录制数据集(包含消声室与会议室环境,T60≈900 ms,SNR≈6 dB),PSELDNets 在两种环境中均展现出可迁移能力,使用实测 RIR 合成数据微调后,性能进一步提升
  • 低资源场景:仅 120 min 合成数据条件下,AdapterBit 微调方法的 ℰSELD 优于 传统全参数微调及 LoRA 等方法,即使仅使用单声道数据,也能达到接近 4 通道 FOA 数据的适配效果

图3 此表在合成测试集上对比了三种不同骨干网络(CNN14-Conformer, PaSST, HTS-AT)的性能,包括参数量、错误率、F分数和定位误差/召回率,并指出HTS-AT因性能和效率平衡被选为基线。

实验同时发现,数据增强链(Mixup、Cutout、SpecAugment、频率移位、FOA 旋转)后处理(移动平均、动态阈值)可进一步提升模型性能,而模型的输出时间分辨率(≈0.3 s)移动声源的定位精度存在系统性误差,这也是后续研究可优化的方向。

图4 对于来自DCASE 2021 Task 3评估集的一个片段,展示其真实标注以及系统在有/无后处理情况下的输出可视化。图中呈现了SED预测及相应的方位角估计。

总结

这项研究合成并开源了涵盖多样化声事件与声学环境的 1167 小时训练集与 51 小时测试集;提出了基于 SEC 预训练权重改造的 PSELDNets,为 SELD 领域提供了首批预训练模型;设计了参数高效微调方法 AdapterBit,在低资源场景下以 ≈5 M 可训练参数实现与全参数微调相当或更优的性能。

在应用层面,PSELDNets 通过预训练与高效微调的结合,降低了对场景特定多通道数据的依赖,其单声道适配能力可减少采集成本,为不同场景下的 SELD 应用提供了更灵活的部署选项

论文信息:J. Hu, Y. Cao, M. Wu, F. Kang, F. Yang, W. Wang, M. D. Plumbley, and J. Yang, “PSELDNets: Pre-trained neural networks on a large-scale synthetic dataset for sound event localization and detection,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 33, pp. 2845–2860, 2025, doi: 10.1109/TASLP.2025.3405498.

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间后台联系,我们将协调进行处理,所有来稿文责自负,两江仅作分享平台。转载请注明出处,如原创内容转载需授权,请联系下方微信号。
图片

【声明】内容源于网络
0
0
两江科技评论
聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
内容 6001
粉丝 0
两江科技评论 聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
总阅读9.2k
粉丝0
内容6.0k