IEEE Transactions on Multimedia (TMM) 是中科院一区、JCR一区期刊,影响因子为9.7,发表涵盖多媒体内容分析、跨模态学习、人机交互等方向的创新理论与前沿应用研究。北邮COST实验室1篇论文被TMM录用,下面是论文介绍:
01
摘要:密集音视频事件定位(DAVE)旨在识别未剪辑视频中的事件类别并定位其时间边界。面对这一挑战性任务,现有研究大多仅对最终输出施加音视频事件语义约束,缺乏中间层的渐进式跨模态语义桥接,这会导致跨模态的语义鸿沟,进而阻碍音频与视觉特征表征的对齐,难以区分事件相关内容与无关背景信息。此外,现有方法很少考虑事件间的关联性,限制了模型在复杂场景中对并发事件的推断能力。本文通过引入多阶段语义引导与多事件关系建模,分别实现音视频事件的渐进语义理解与事件依赖关系的自适应提取,从而更精准聚焦事件相关信息。具体而言,事件感知语义引导网络(ESG-Net)包含早期语义交互(ESI)模块与混合依赖专家(MoDE)模块:ESI通过多阶段特征融合及分类损失函数显式约束模型学习语义信息,确保对事件内容的多层次理解;MoDE通过具有自适应权重分配的多序列混合专家机制促进多事件依赖关系提取。大量实验表明,本方法在显著超越现有最优方法的同时,大幅降低了参数量与计算负荷。
文案:李汇来
排版:李汇来
责编:李汇来

