-
CNN14-Conformer:在 CNN14 后端额外堆叠 Conformer 块,CNN 提取局部细粒度特征,Conformer 捕捉音频序列的局部与全局依赖关系;
-
PaSST:采用 Transformer 编码器架构,通过 Patchout 技术省略部分输入序列,提升模型泛化能力并降低计算复杂度;
-
HTS-AT:结合 Swin Transformer 与令牌语义模块,通过移位窗口注意力机制限制在局部非重叠窗口内计算自注意力,生成逐时间戳的激活图用于预测。
-
合成测试集:使用 TAU-SRIR DB 的实测 SRIR 进行评估,PSELDNets 的类依赖定位召回率(LRCD) 超过 32%,类依赖定位误差(LECD) 约为 17°,表现符合预期;
-
公开数据集:在 L3DAS22 Task 2、DCASE 2021 Task 3、STARSS23 等公开数据集上,PSELDNets 经全参数微调后,在综合性能指标(ℰSELD)上均优于参赛系统报告的最佳单模型。经后处理(移动平均 + 动态阈值)后,单模型在 DCASE 2021 Task 3 上的 ℰSELD 与集成模型相当;
-
真实场景数据集:团队自建室内录制数据集(包含消声室与会议室环境,T60≈900 ms,SNR≈6 dB),PSELDNets 在两种环境中均展现出可迁移能力,使用实测 RIR 合成数据微调后,性能进一步提升;
-
低资源场景:在仅 120 min 合成数据条件下,AdapterBit 微调方法的 ℰSELD 优于 传统全参数微调及 LoRA 等方法,即使仅使用单声道数据,也能达到接近 4 通道 FOA 数据的适配效果。

