就在全球AI音乐巨头Suno宣布完成2.5亿美元融资的同时,国内赛道也传来重磅进展。模速空间入驻企业自由量级于今日(1日)正式发布自研音乐大模型“音潮音乐”2.5版本,实现全面能力跃升。新版本基本杜绝了以往常见的“半说半唱”、“机械念白”等生成瑕疵,在旋律流畅度与演奏质量上,再度刷新了国内AI音乐生成的高度。
与多数厂商基于开源模型微调的常规路径不同,音潮音乐从底层架构起步,始终坚持完全自研。研发团队突破传统思路,首创采用AR+NAR混合架构,不仅实现了音乐结构的长期连贯性,更在局部细节生成上做到高度拟真。该模型能够精准捕捉音乐中的全局动态,并完成高保真重建,自发布以来,凭借其抓耳的旋律设计、“唱将级”人声表现与工业级音质,迅速成为行业新标杆。
本次2.5版本的升级重点聚焦于“Post-Training”阶段优化。在AI音乐生成过程中,“非线性结构”一直是核心挑战——即便是一首普通歌曲,也包含旋律、和声、节奏、音色等多元素复杂交织,仅靠线性预测模型难以生成连贯且富有乐感的作品。正因如此,长期以来,AI生成音乐在良品率和优品率方面表现不佳。
“通俗来说,就是‘半说半唱’、‘机械念白’这类明显‘AI感’的问题非常普遍,”音潮音乐算法负责人Justin坦言,“在我们音乐专业背景的评测团队听来,过去很大一部分生成作品仍难以达到理想效果。”
为攻克这一难题,自由量级依托自研数据标注框架与专业音乐标注团队,构建了国内最大规模的流行音乐偏序数据集,并引入强化学习技术,使模型输出与大众音乐审美偏好对齐。升级后的音潮音乐 2.5已基本消除上述问题,评测显示生成作品的旋律更自然动听,演奏质量也显著提升。“可以说,我们同时拉高了生成作品的‘下限’与‘上限’。”Justin补充道。
VS
目前,音潮音乐2.5版本及灵感写歌新功能已经在“音潮”APP上线,欢迎大家下载或直接前往网页端www.yinchaoyongxian.com体验。
自由量级成立于2023年7月,我们专注于多模态语言模型、视觉内容生成大模型及音乐大模型的研究开发工作,致力于通过技术创新推动人工智能在多模态领域的应用,为用户提供更智能、更高效的内容生成解决方案。

