一个模型，搞定所有音频生成任务！多项基准SOTA

首页

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

新智元

2026-03-09

新智元报道

编辑：LRST

【新智元导读】港科大团队提出音频生成统一模型AudioX，仅需一个模型即可支持文本、视频、图像等多模态输入，生成高质量音效与音乐，在多项基准上超越专家模型。团队同步开源700万样本细粒度标注数据集IF-caps及可控T2A评测基准T2A-bench。论文已被ICLR 2026接收。

统一音频生成模型AudioX

当前音频生成领域面临模型碎片化问题：文本生成音效（T2A）、视频配音（V2A）、音乐生成（T2M）等任务各自依赖专用模型，知识无法共享，泛化能力受限。

香港科技大学郭毅可院士团队提出的AudioX，首次将多类音频生成能力集成于单一模型中。

该模型基于Diffusion Transformer（DiT）架构，引入轻量级多模态自适应融合（MAF）模块，支持文本、视频、图像、音频等多种模态灵活组合输入，可完成T2A、T2M、V2A、V2M、音频修复、音乐续写等六大任务。

在AudioCaps、MusicCaps、V2M-bench等权威基准上，AudioX多项指标达SOTA。

细粒度可控生成能力突出

AudioX在可控生成方面表现卓越。在团队自建的T2A-bench与AudioTime指令跟随基准上，其在事件类别、数量、时序、时间戳等全部维度均显著领先现有方法。

AudioX框架图

项目已全面开源，包含代码、模型权重与数据集，在GitHub获超1.2k Star，并曾登顶Hugging Face音频生成模型排行榜。

T2A效果展示

文字 → 音效：支持对声音事件类别、数量、时序及时间戳的精准控制。

Thunder and rain during a sad piano solo

Footsteps followed by rapid gunshots and people speaking.

A toilet flush occurs from 1.616 to 4.458 seconds, followed by a rumble between 6.044 and 10 seconds.

A machine gun fires twice, followed by a period of silence, then the sound of waves and surf.

T2M效果展示

文字 → 音乐：支持按风格、乐器、情绪等描述生成对应音乐。

Instrumental jazz piece with piano, guitar, drums, and bass.

An orchestral music piece for a fantasy world

Playful 8-bit chiptune music for a retro platformer game

Punk rock track with electric guitar, bass, drums, aggressive and melodic.

V2A效果展示

视频 → 音效：自动为视频画面匹配生成语义一致的音效。

V2M效果展示

视频 → 音乐：根据视频内容生成适配风格的背景音乐。

700万样本细粒度数据集IF-caps

训练统一模型的关键瓶颈在于数据：现有音频数据集普遍规模小、标注粗粒度，缺乏事件类别、数量、时间戳、时序关系等结构化信息。

团队构建了两阶段高质量数据标注流水线，发布大规模细粒度数据集IF-caps（Instruction-Following Captions），覆盖音效与音乐两大方向。

数据处理流水线图

第一阶段：精细化结构标注

采用Gemini 2.5 Pro对10秒视频-音频片段的音频轨道进行深度分析。音效数据标注涵盖全局描述、声音事件分类与计数、时间戳（SED）、时序关系；音乐数据标注包括曲风、情绪、乐器、节奏等属性。

第二阶段：多角度文本增强

基于Qwen2-Audio模型，利用第一阶段结构化标注，通过描述改写、类别驱动生成、时间戳驱动生成、时序关系驱动生成等方式，为同一音频生成语义一致但风格多样的多样化文本描述，显著提升数据多样性与模型鲁棒性。

IF-caps最终包含约130万条音效数据与570万条音乐数据，总计超700万样本。

跨模态正则化效应

消融实验揭示一项关键现象：跨模态正则化效应（Cross-modal Regularization Effect）——提升文本标注质量不仅显著改善T2A性能，也同步带动V2A等其他任务性能提升。

高质量文本监督信号为模型提供了精细语义结构（如事件类别、数量、时序），增强了共享的多模态表示空间，使视频等条件模态亦受益。该发现表明：高质量文本数据不仅是输入条件，更是构建强大多模态模型的核心策略。

主要作者简介

田泽越：第一作者，香港科技大学跨学科学院三年级博士生，师从郭毅可教授，研究方向为多模态音频与音乐生成。

郭毅可：通讯作者，中国工程院外籍院士，现任香港科技大学首席副校长、计算机科学及工程学系讲座教授。

雪巍：通讯作者，香港科技大学艺术与机器创造力学部、新兴跨学科领域学部助理教授，研究方向为智能语音、音频与音乐的感知与生成。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14974

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读135.7k

粉丝0

内容15.0k