AI大佬放大招：Stability AI正式推出音频生成工具Stable Audio

GameLook

2023-09-15

Stability AI推出AI音频生成产品Stable Audio，挑战游戏音乐创作新边界

AIGC明星公司Stability AI继文生图模型Stable Diffusion之后，再度推出全新音频生成产品Stable Audio，正式进军音频生成领域。该产品由Stability AI旗下Harmonai团队研发，基于与Stable Diffusion相似的扩散模型技术，并使用来自AudioSparx的授权数据集进行训练，包含约19500小时、80万条音频文件。

与当前主流AI音频生成模型类似，Stable Audio支持自然语言输入方式，用户可指定流派、节奏、配器、情绪和应用场景等参数。例如输入“迪斯科，合成器，鼓机，120BPM，器乐，钢琴，吉他”，系统即可生成相应风格的音频内容。

从试听体验来看，Stable Audio在音质表现上相较其他AI音频生成工具更为出色，噪音和压缩感显著减少，但在复杂乐器编排方面仍显不足，特别是在爵士与摇滚等需高度配合的音乐形式中表现较弱。

商业化采用订阅制模式，提供免费与付费版本

Stable Audio采取包月订阅机制，分为两个层级。免费档允许用户每月生成20段最长45秒的音频文件，不可用于商业用途；付费版本定价11.99美元/月，允许生成500段最高90秒音频，并可用于商业项目。

技术路线优化：避免音频头尾缺失问题

不同于常规音频扩散模型仅截取音频区块进行训练的方式，Stable Audio引入音频的文字元数据信息，包括持续时间和起始时间点，从而实现对任意时间段音频的完整生成，有效避免缺头去尾的问题。

未来将开源模型代码，支持用户自定义训练

尽管此次未开放Stable Audio模型源代码，但Stability AI承诺将在未来推出另一款使用不同数据训练的模型，并基于相同架构向开发者开源，鼓励社区自定义训练。

AI音频生成面临行业应用瓶颈

虽然AI音频生成技术逐渐成熟，但其在游戏行业推广仍面临多重限制。多数厂商对音频部门投入有限，AIGC带来的成本节约效果不明显，且难以与现有专业音效库、音乐库及成熟外包服务竞争。此外，在高端市场中，大型工作室更倾向于投资内部创作团队以确保品质。

不过，随着生成模型不断演进，AI音频有望在未来大幅提升可用性与音质水平，或将成为游戏音乐制作的重要工具。若能借力开源生态快速迭代，AI音频技术或将推动整个行业进入足不出户创作高质量配乐的新时代。

【声明】内容源于网络

GameLook

揭秘游戏圈:聚焦爆款，热点，趋势。GameLook是中国领先的游戏产业研究媒体，为游戏开发者、投资者、玩家提供高价值的全球游戏业资讯、原创评论与分析、行业数据与技术前瞻。

内容 1985

粉丝 0

GameLook 揭秘游戏圈:聚焦爆款，热点，趋势。GameLook是中国领先的游戏产业研究媒体，为游戏开发者、投资者、玩家提供高价值的全球游戏业资讯、原创评论与分析、行业数据与技术前瞻。

总阅读67.2k

粉丝0

内容2.0k