大数跨境

【灵思资讯】张雪机车震撼赛场!国产2B语音模型全面开源,听众直呼惊艳

【灵思资讯】张雪机车震撼赛场!国产2B语音模型全面开源,听众直呼惊艳 灵思极智
2026-04-15
2

【灵思导读】面壁智能2B小模型VoxCPM 2惊艳开源,海外网友集体沸腾!它轻松驾驭30种语言与9大方言,复刻的贺炜激情解说与徐志胜脱口秀,相似度直击灵魂。这不仅是工具,更是碾压级的生产力神器!

最近,这个AI让我们彻底震惊了。

我们写了一小段脱口秀,上传了徐志胜的一段录音,让AI模仿他的声音念出来。

音频一出,编辑部安静了几秒,随即全员激动。

那股山东味的换气声、自带喜感的语气,连说到一半突然卡壳的停顿都惟妙惟肖。

但这根本不是徐志胜本人。

这个模型叫VoxCPM 2,由面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室开发,是一个2B的小模型,今年4月刚开源。

不只是我们激动。前天VoxCPM 2刚发布时,相关推文浏览量迅速突破30万。

官方放出的演示,让许多网友惊叹不已。

“硅谷钢铁侠”马斯克以Q版数字人形象,游历了十几个国家。每到一处,他都用极其地道的本地语言,结合当地文化与自家公司幽默吐槽。

在法国,他用法语抱怨“8月份在这里等邮件,比殖民火星还难”;在意大利,他用意大利语郑重声明“披萨上加菠萝,比炸毁火箭还罪恶”。

在中国,他用标准中文感叹“这里开源模型发布的速度,比我发射星链还快”;在泰国,他被辣到怀疑人生,“这木瓜沙拉辣得我大脑重启,Neuralink快记下来!”

评论区里,网友们纷纷称赞:VoxCPM 2再次提升了开源TTS的标准,它可能彻底改变我们创作音频的方式。

能玩转幽默,只是VoxCPM 2的基础能力。

它支持30种语言、9种方言,提供48kHz的CD级音质。无论是声音克隆还是情绪控制,它样样擅长,还有一项更独特的“音色设计”能力,能凭空创造出全新的声音。

别家需要多个模型组合完成的任务,它一个就能包办。开源、免费,附带完整工具链。

这个AI不是来参赛的,而是直接颠覆了现有格局!

五项实测,解析AI语音能力上限

一段录音输入,贺炜声音完美重现

音色克隆是VoxCPM 2的一大核心优势,属于独特功能。它实现了业界领先的克隆相似度,真正做到声音的逼真再现。

最近,张雪机车的热血故事刷屏网络。在WSBK葡萄牙站,张雪凭借个人实力,击败杜卡迪、川崎、雅马哈,打破了欧洲与日本长达百年的垄断,一战成名!

我们来试试,模仿贺炜的解说风格,用激情澎湃、热泪盈眶、骄傲自豪的语调,有节奏、有停顿地解说下面这段话:

比赛结束了!冠军!张雪和他的国产机车,在葡萄牙,在WSBK的赛场上,创造了历史!

此刻,波尔蒂芒赛道的空气仿佛凝固。我们看到张雪机车的车手在最后一个弯道压低车身,那不是简单的倾斜,而是理想主义者向地心引力发起的最后冲锋!

贺炜那直击心灵的激昂解说被完美复刻,这穿透屏幕的声音,让世界都听到:中国智造,已站在世界之巅。

一个字,绝。

方言一出,AI瞬间富有情感

AI能说中文不稀奇,但它能说出带着地方特色的家乡话吗?

VoxCPM 2支持9种中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。光看名单没感觉,得亲耳听听。

为了测试它的能力,我们请出《武林外传》中的经典角色。

首先,给模型输入一段佟掌柜的经典台词。原本担心AI会把陕西话说成“带口音的普通话”,结果音频一出,全办公室都安静了。

佟湘玉(陕西话): “额错咧,额真滴错咧,额从一开始就不该嫁到这儿来……”

简直了,这个微微上扬的尾音,把那种风情又委屈的劲儿拿捏得死死的。

山东话中独特的重音和喜感,粤语里的文艺腔和江湖气,VoxCPM 2全都能驾驭。

燕小六(山东话): “给俺照看好俺七舅姥爷!”

无双(粤语):“有啲人天生血脉带风,注定一世都要漂泊。”

最后,再来几段富有故事感的。

我们给VoxCPM 2下达指令:“闽南语,女性,语气又凶又心疼”,让它扮演一个叫孙子回家吃饭的闽南阿嬷。

死囡仔!叫你紧来食饭你就装无听着!菜拢冷去矣!你若阁无来,碗筷我就收起来,今仔暗你去食风就好!......好啦好啦,紧来坐,我共你留一碗鸡汤。

闽南阿嬷催你吃饭,广东老师傅教你吃好。

我们让VoxCPM 2用粤语念一段干炒牛河的旁白,控制指令只写“像纪录片旁白,浑厚从容”。

一碟好嘅干炒牛河,镬气系灵魂。猛火烧镬,牛油落镬嘅一刻,成间厨房都系香味。河粉要炒到条条分明,牛肉要滑而唔韧。老师傅讲,干炒牛河唔系炒出嚟嘅,系“抛”出嚟嘅。

不紧不慢的讲述节奏,听完想立刻下楼找大排档。

上海话也不逊色。

先来一段上海阿姨吐槽邻居装修,语速快、嗲中带刺,每句话都透着不满。

侬晓得伐,阿拉隔壁邻居又开始装修了。礼拜六一大早就叮叮咚咚,我整个人困在床浪向,感觉自家屋里厢就像住在拆迁现场。我发消息过去讲,能不能轻一点?人家回我一句,“快了快了”。快了快了讲了三个号头了!

同样是上海话,这次换成低沉威严的中年男声,像老克勒靠在沙发上跟晚辈讲规矩。

我信过交情,也吃过生活。到如今我想通了,这个世界浪向,第一桩事体就是勿要让别人晓得侬心里厢到底想啥。侬今朝来寻我,我帮侬这个忙,但是将来总有一日,我要侬帮我做一桩事体。这桩事体,侬勿好推脱。

同一种方言,一个娇嗲入骨,一个冷峻到底。VoxCPM 2的掌控力,已不是“能说”,而是“能演”。

为何效果如此出色?因为模型抓住了方言中的语气词、停顿和情绪细节,方言不再是几种发音规则的组合,而是情感的复刻。

对于自媒体短视频、文化出海团队来说,这简直是核武器级的生产力。

凭空创造声优,还能千人千面

VoxCPM 2的另一项突出能力,是音色设计。

目前市面上多数模型只能对固定音色进行情感或风格控制,但VoxCPM 2支持任意音色的生成。

因此,我们可以先用文字创造一个理想声音,精确控制其情感和风格,为内容创作打开了无限空间。

比如下面这个武侠短剧的配音,无论是浪子侠客、活泼少女还是江湖老者,角色的贴合度都极其精细。

它不再是录音棚里冰冷、平淡的对白,而是带有呼吸声和情绪起伏。

这就是颠覆性的降维打击,从此无需四处寻找配音演员,VoxCPM 2一个AI就能生成千变万化的音色。

另外,我们还让VoxCPM 2设计了一段《恋与深空》男主沈星移对女主的表白。

设计细节如下。

音色:清澈男中音,偏冷调但非冰冷,类似“月光落在雪地上”的质感

语速:日常语速偏慢,约每分钟130-150字;内心戏时更缓

气息:句尾常有极轻的吸气或叹息感,表现隐忍

果然,VoxCPM 2瞬间还原了一个乙女游戏男主的音色,像是在克制情绪,却又藏不住对女主那份压抑的深情,表现满分!

温柔能设计,冷酷也能。

我们用控制指令设定一个人设:“中年男性,声音干涩发紧,语速很慢,每说完一句就停下来,音量始终很低,像是自言自语”,让它念一段鲁迅风格的吐槽。

我翻开朋友圈一查,满屏都写着两个字,副业。横竖睡不着,仔细看了半夜,才从字缝里看出字来,割韭菜。

没有参考音频,没有克隆对象,这个声音是VoxCPM 2仅凭一段文字描述从零生成的。

浪子侠客、深情男主、冷面文人,音色设计的极限取决于你的想象力。

李白痛饮,七句诗七种情感

甚至,我们能通过指令,让每一句话都带有不同的情感。

“弃我去者,昨日之日不可留”,指令写“声音沉缓,咬着字尾,像酒后吐郁气”。模型给出了每个字都顿一下的沉闷感,透着力度。

“长风万里送秋色”,指令写“像深吸一口气往外放,畅快激动”。“秋色”二字被明显拉长,声音瞬间打开。

“抽刀断水水更流,举杯销愁愁更愁”,指令写“语速放慢,音调降低,尾音拖长”。“愁更愁”三个字几乎是叹息,但又带着一股不甘。

从郁闷到豪迈,从悲伤到释然,每一句的情绪走向都精准跟随控制指令变化。

30种语言覆盖全球,哪吒出海无需翻译

除了音色克隆和设计,VoxCPM 2这次还实现了跨语种的降维打击。

它不仅支持30种全球主流语言,还特别强化了东南亚八国语言,包括泰语、越南语、印尼语、马来语、菲律宾语等。

要知道,这些语种全是出海团队最关注的领域,现在一个模型全包了。

说到这,就不得不提国产电影和电视剧的东南亚出海。

狂揽159亿票房的《哪吒之魔童闹海》中,哪吒有一段经典台词:“我命由我不由天,是魔是仙,我自己说了算!”

VoxCPM 2生成的泰语、越南语版本,都呈现出极其自然的原声质感。哪吒那种桀骜不驯的劲儿,在异国语境中被完美展现。

过去出海配音面临的文化隔阂、口音偏差和高昂人力成本,现在在VoxCPM 2面前,都已不复存在!

接下来,我们做一个东南亚语言的真实商业场景测试。

我们写了一段15秒带货广告脚本,用VoxCPM 2分别输出泰语、越南语、印尼语、马来语、菲律宾语五个版本。

控制指令统一设定为“年轻女性,清亮活泼,像电商直播主播推荐产品”。

早上好!新到的冰椰拿铁,椰香浓郁,入口丝滑。现在下单第二杯半价,今天喝过的朋友都回来复购了。别犹豫,点下面链接直接拍!

结果令人惊喜:五种语言切换下来,发音地道,连我们的东南亚朋友都听不出破绽。

成本呢?如果使用那些按字符收费的闭源平台,五种语言一天跑30条,一个月下来账单可能高达数千美元,让老板们心疼。

但如果是VoxCPM 2上场,成本也就是一张4090显卡的几度电费,对跨境电商团队极为有利!

五项测试跑完,克隆、方言、设计、情绪、多语种,没有一个场景让它露怯。

中国小模型全家桶独此一家

开发者纷纷用行动支持

在AI开源界,好用是一方面,配套是否齐全才是决定开发者是否用脚投票的关键。

这次,面壁智能提供的是全家桶级别的工具集,真正做到了让用户开箱即用。

部署层面,支持原生Torch推理、LoRA微调、全参数微调。高吞吐场景有专门的VoxCPM-NanoVLLM进行GPU推理。

生态层面,ComfyUI、WebUI插件一应俱全,甚至为性能爱好者准备了Rust语言重构版本。

从MiniCPM到VoxCPM,面壁智能一直坚持“高知识密度”路线,用更小的参数量(2B)打出超越百亿级的性能。

对开发者而言,部署成本更低,推理速度更快,端侧应用更灵活。

而它的开源路线,更是让人极力推崇。

要知道,现在语音模型的头部闭源平台ElevenLabs,仅Pro套餐每月就要99美元,而且只有50万字符额度,超出部分另算。

相比之下,VoxCPM 2完全开源,不收取任何费用,可随意修改和用于商业用途。

目前,VoxCPM 2的体验链接已上线,GitHub开源仓库在OpenBMB/VoxCPM,模型权重开放下载。

技术理想主义

让中国AGI更有“声音”

VoxCPM 2能做到这些,底层源于技术路线的选择。

目前开源TTS领域的主流技术路线是Token-based。它将连续的语音信号先切成离散的声学Token,再用语言模型逐个预测。这个过程不可避免地会丢失声学信息和情感细节。

VoxCPM 2走的是另一条路:扩散自回归连续表征。

用一个类比来解释。

Token-based的方法就像先把一幅油画拍成马赛克照片,再试图从马赛克还原油画。每次“打马赛克”都会丢失一些色彩过渡的细节。

VoxCPM 2的方法是在连续的颜色空间里作画,不经过马赛克这一步。声音的细腻纹理自然保留得更完整。

落到听感上,差异很明显。

你去听VoxCPM 2克隆出来的声音,气息感、齿音、喉咙的震动,这些微妙的声学细节保留得更好。

开头那段鲁迅的冷讽之所以能做到“不靠音量靠气息”,底层就是这条技术路线在支撑。

至此,AI语音的“暴力美学”时代正式结束,VoxCPM 2开启的是一个更细腻、更普惠的新时代。

这场比赛,已经被彻底终结。



————  END  ————


灵思极智旗下“极智系列”三款AI智能应用




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”


关注后,两步置顶服务号,可第一时间收到灵思极智推文!



【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176