大数跨境

开源语音模型Dia-1.6B:一天斩获3.4k star的语音新宠

开源语音模型Dia-1.6B:一天斩获3.4k star的语音新宠 元龙数字智能科技
2025-04-24
3

开源语音模型

Dia-1.6B

一天斩获3.4k star的语音新宠

在人工智能领域,语音合成技术的发展日新月异,不断涌现出令人惊叹的新模型。近日,一个名为Dia-1.6B的开源语音模型在X、GitHub等平台上迅速走红,引发了广泛的关注和讨论。

如果不提前告知,人们很难相信一段视频中的所有语音全部是由Dia-1.6B这个AI模型生成的。它的能力不仅局限于生成普通的说话声音和对话,更令人称奇的是,还能合成出真实感极强的笑声、喷嚏声、吸鼻子声等表达情绪的声音。这种高度逼真的效果使得Dia-1.6B一经在GitHub上线,便展现出了强大的吸引力,在不到24小时的时间里就收获了超过3.4k star,截至目前,star数更是攀升至5.4k。在Hugging Face平台上,Dia-1.6B也成为了热度第二的模型,被下载次数超过5600次,足见其受欢迎程度。

与之前以逼真著称的ElevenLabs Studio、Sesame CSM-1B等模型相比,Dia-1.6B在合成效果上依然有着明显的优势,尤其是在情绪表达方面更为突出。机器之心也对其进行了简单的尝试,示例结果显示,Dia-1.6B在合成简单英语对话方面表现卓越,能够生成较为自然流畅的语音内容。然而,它也并非完美无缺,存在一些有待改进的地方。例如,它并不能很好地理解用户通过括号标注的指令,并且偶尔会出现类似电流的杂音。

Dia模型来自于Nari Labs,是一个拥有1.6B参数量的文本转语音模型。其最大的特点就是可以直接基于文字生成高真实感的对话。用户不仅可以对输出的音频进行调整,以此来控制其情绪和语调,还能让模型生成如笑声、咳嗽声、吸鼻子声等非语言的交流声音。Nari Labs以Apache License 2.0证书开源发布了Dia,并表示为了加速研究,提供了预训练模型检查点和推理代码的访问权限,模型权重则托管在Hugging Face上。不过,目前该模型仅支持英语生成,这对于其他语言的用户来说可能是一个小小的遗憾。

在硬件和推理加速方面,虽然Nari Labs并未发布Dia模型的详细技术报告,但从其Hugging Face页面可以了解到一些相关的技术细节。Dia目前仅在GPU上进行过测试(Pytorch 2.0+,CUDA 12.6),不过CPU支持也即将添加。由于需要下载Descript Audio Codec,所以初始运行时会花费更长的时间。在企业级GPU上,Dia可以实现实时生成音频,而在较旧的GPU上,推理速度则会变慢。以A4000 GPU为例,Dia大约每秒生成40个token(86个token相当于1秒的音频),并且torch.compile能够提高受支持GPU的速度。Dia的完整版本运行大约需要10GB的显存,不过该团队承诺未来会放出一些量化版本,以降低对显存的要求。此外,Dia还有更大规模的版本处于规划阶段,感兴趣的用户可以通过指定链接加入等待列表。目前,Dia最长能稳定生成大约25秒的音频,但用户也可以基于之前的生成结果来生成更长的音频。

关于Nari Labs这个团队,从其Hugging Face页面可以得知,Nari是一个源自韩语的词(나리),意为百合。令人惊讶的是,Nari Labs是一个非常小的团队,目前仅有一位全职研究工程师和一位兼职研究工程师,他们的GitHub账户也才注册四天。其中一位开发者Toby Kim在X上表示,这两位工程师目前都还是本科生。尽管团队规模小且成员年轻,但他们却有着远大的目标,即构建一个可以与NotebookLM Podcast、ElevenLabs Studio和Sesame CSM相媲美的TTS模型。从Dia-1.6B目前所取得的成绩来看,他们已经迈出了成功的第一步。Toby Kim称这项成功耗时三个月时间,而在这个过程中,他们遇到的最大阻碍是计算不足。

展望未来,Nari Labs计划将Dia做成一个B2C应用,通过这个应用可以生成有趣的对话和混音内容。可以想象,当Dia-1.6B进一步完善和优化,支持更多语言,并且应用到实际的B2C场景中时,它将为用户带来更加丰富和优质的语音体验,无论是在娱乐、教育还是其他领域,都有着巨大的潜力。Dia-1.6B的出现,不仅展示了小团队在人工智能领域的创新能力,也为语音合成技术的发展注入了新的活力,让我们对未来的语音技术充满了期待。相信随着技术的不断进步和团队的持续努力,Dia模型将会取得更加辉煌的成就,在人工智能的舞台上绽放出更加耀眼的光芒。 

END

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901