大数跨境
0
0

AI大佬放大招:Stability AI正式推出音频生成工具Stable Audio

AI大佬放大招:Stability AI正式推出音频生成工具Stable Audio GameLook
2023-09-15
11

Stability AI推出AI音频生成产品Stable Audio,挑战游戏音乐创作新边界

AIGC明星公司Stability AI继文生图模型Stable Diffusion之后,再度推出全新音频生成产品Stable Audio,正式进军音频生成领域。该产品由Stability AI旗下Harmonai团队研发,基于与Stable Diffusion相似的扩散模型技术,并使用来自AudioSparx的授权数据集进行训练,包含约19500小时、80万条音频文件。

与当前主流AI音频生成模型类似,Stable Audio支持自然语言输入方式,用户可指定流派、节奏、配器、情绪和应用场景等参数。例如输入“迪斯科,合成器,鼓机,120BPM,器乐,钢琴,吉他”,系统即可生成相应风格的音频内容。

从试听体验来看,Stable Audio在音质表现上相较其他AI音频生成工具更为出色,噪音和压缩感显著减少,但在复杂乐器编排方面仍显不足,特别是在爵士与摇滚等需高度配合的音乐形式中表现较弱。

商业化采用订阅制模式,提供免费与付费版本

Stable Audio采取包月订阅机制,分为两个层级。免费档允许用户每月生成20段最长45秒的音频文件,不可用于商业用途;付费版本定价11.99美元/月,允许生成500段最高90秒音频,并可用于商业项目。

技术路线优化:避免音频头尾缺失问题

不同于常规音频扩散模型仅截取音频区块进行训练的方式,Stable Audio引入音频的文字元数据信息,包括持续时间和起始时间点,从而实现对任意时间段音频的完整生成,有效避免缺头去尾的问题。

未来将开源模型代码,支持用户自定义训练

尽管此次未开放Stable Audio模型源代码,但Stability AI承诺将在未来推出另一款使用不同数据训练的模型,并基于相同架构向开发者开源,鼓励社区自定义训练。

AI音频生成面临行业应用瓶颈

虽然AI音频生成技术逐渐成熟,但其在游戏行业推广仍面临多重限制。多数厂商对音频部门投入有限,AIGC带来的成本节约效果不明显,且难以与现有专业音效库、音乐库及成熟外包服务竞争。此外,在高端市场中,大型工作室更倾向于投资内部创作团队以确保品质。

不过,随着生成模型不断演进,AI音频有望在未来大幅提升可用性与音质水平,或将成为游戏音乐制作的重要工具。若能借力开源生态快速迭代,AI音频技术或将推动整个行业进入足不出户创作高质量配乐的新时代。

【声明】内容源于网络
0
0
GameLook
揭秘游戏圈:聚焦爆款,热点,趋势。GameLook是中国领先的游戏产业研究媒体,为游戏开发者、投资者、玩家提供高价值的全球游戏业资讯、原创评论与分析、行业数据与技术前瞻。
内容 1985
粉丝 0
GameLook 揭秘游戏圈:聚焦爆款,热点,趋势。GameLook是中国领先的游戏产业研究媒体,为游戏开发者、投资者、玩家提供高价值的全球游戏业资讯、原创评论与分析、行业数据与技术前瞻。
总阅读67.2k
粉丝0
内容2.0k