大数跨境

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26 新智元
2026-03-09
1

新智元报道

编辑:LRST
【新智元导读】港科大团队提出音频生成统一模型AudioX,仅需一个模型即可支持文本、视频、图像等多模态输入,生成高质量音效与音乐,在多项基准上超越专家模型。团队同步开源700万样本细粒度标注数据集IF-caps及可控T2A评测基准T2A-bench。论文已被ICLR 2026接收。

统一音频生成模型AudioX

当前音频生成领域面临模型碎片化问题:文本生成音效(T2A)、视频配音(V2A)、音乐生成(T2M)等任务各自依赖专用模型,知识无法共享,泛化能力受限。

香港科技大学郭毅可院士团队提出的AudioX,首次将多类音频生成能力集成于单一模型中。

该模型基于Diffusion Transformer(DiT)架构,引入轻量级多模态自适应融合(MAF)模块,支持文本、视频、图像、音频等多种模态灵活组合输入,可完成T2A、T2M、V2A、V2M、音频修复、音乐续写等六大任务。

在AudioCaps、MusicCaps、V2M-bench等权威基准上,AudioX多项指标达SOTA。

细粒度可控生成能力突出

AudioX在可控生成方面表现卓越。在团队自建的T2A-bench与AudioTime指令跟随基准上,其在事件类别、数量、时序、时间戳等全部维度均显著领先现有方法。

AudioX框架图

项目已全面开源,包含代码、模型权重与数据集,在GitHub获超1.2k Star,并曾登顶Hugging Face音频生成模型排行榜。

T2A效果展示

文字 → 音效:支持对声音事件类别、数量、时序及时间戳的精准控制。

Thunder and rain during a sad piano solo

Footsteps followed by rapid gunshots and people speaking.

A toilet flush occurs from 1.616 to 4.458 seconds, followed by a rumble between 6.044 and 10 seconds.

A machine gun fires twice, followed by a period of silence, then the sound of waves and surf.

T2M效果展示

文字 → 音乐:支持按风格、乐器、情绪等描述生成对应音乐。

Instrumental jazz piece with piano, guitar, drums, and bass.

An orchestral music piece for a fantasy world

Playful 8-bit chiptune music for a retro platformer game

Punk rock track with electric guitar, bass, drums, aggressive and melodic.

V2A效果展示

视频 → 音效:自动为视频画面匹配生成语义一致的音效。

V2M效果展示

视频 → 音乐:根据视频内容生成适配风格的背景音乐。

700万样本细粒度数据集IF-caps

训练统一模型的关键瓶颈在于数据:现有音频数据集普遍规模小、标注粗粒度,缺乏事件类别、数量、时间戳、时序关系等结构化信息。

团队构建了两阶段高质量数据标注流水线,发布大规模细粒度数据集IF-caps(Instruction-Following Captions),覆盖音效与音乐两大方向。

数据处理流水线图

第一阶段:精细化结构标注

采用Gemini 2.5 Pro对10秒视频-音频片段的音频轨道进行深度分析。音效数据标注涵盖全局描述、声音事件分类与计数、时间戳(SED)、时序关系;音乐数据标注包括曲风、情绪、乐器、节奏等属性。

第二阶段:多角度文本增强

基于Qwen2-Audio模型,利用第一阶段结构化标注,通过描述改写、类别驱动生成、时间戳驱动生成、时序关系驱动生成等方式,为同一音频生成语义一致但风格多样的多样化文本描述,显著提升数据多样性与模型鲁棒性。

IF-caps最终包含约130万条音效数据570万条音乐数据,总计超700万样本

跨模态正则化效应

消融实验揭示一项关键现象:跨模态正则化效应(Cross-modal Regularization Effect)——提升文本标注质量不仅显著改善T2A性能,也同步带动V2A等其他任务性能提升。

高质量文本监督信号为模型提供了精细语义结构(如事件类别、数量、时序),增强了共享的多模态表示空间,使视频等条件模态亦受益。该发现表明:高质量文本数据不仅是输入条件,更是构建强大多模态模型的核心策略。

主要作者简介

田泽越:第一作者,香港科技大学跨学科学院三年级博士生,师从郭毅可教授,研究方向为多模态音频与音乐生成。

郭毅可:通讯作者,中国工程院外籍院士,现任香港科技大学首席副校长、计算机科学及工程学系讲座教授。

雪巍:通讯作者,香港科技大学艺术与机器创造力学部、新兴跨学科领域学部助理教授,研究方向为智能语音、音频与音乐的感知与生成。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14974
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读135.7k
粉丝0
内容15.0k