【灵思资讯】张雪机车震撼赛场！国产2B语音模型全面开源，听众直呼惊艳- 大数跨境

首页

【灵思资讯】张雪机车震撼赛场！国产2B语音模型全面开源，听众直呼惊艳

灵思极智

2026-04-15

【灵思导读】面壁智能2B小模型VoxCPM 2惊艳开源，海外网友集体沸腾！它轻松驾驭30种语言与9大方言，复刻的贺炜激情解说与徐志胜脱口秀，相似度直击灵魂。这不仅是工具，更是碾压级的生产力神器！

最近，这个AI让我们彻底震惊了。

我们写了一小段脱口秀，上传了徐志胜的一段录音，让AI模仿他的声音念出来。

音频一出，编辑部安静了几秒，随即全员激动。

那股山东味的换气声、自带喜感的语气，连说到一半突然卡壳的停顿都惟妙惟肖。

但这根本不是徐志胜本人。

这个模型叫VoxCPM 2，由面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室开发，是一个2B的小模型，今年4月刚开源。

不只是我们激动。前天VoxCPM 2刚发布时，相关推文浏览量迅速突破30万。

官方放出的演示，让许多网友惊叹不已。

“硅谷钢铁侠”马斯克以Q版数字人形象，游历了十几个国家。每到一处，他都用极其地道的本地语言，结合当地文化与自家公司幽默吐槽。

在法国，他用法语抱怨“8月份在这里等邮件，比殖民火星还难”；在意大利，他用意大利语郑重声明“披萨上加菠萝，比炸毁火箭还罪恶”。

在中国，他用标准中文感叹“这里开源模型发布的速度，比我发射星链还快”；在泰国，他被辣到怀疑人生，“这木瓜沙拉辣得我大脑重启，Neuralink快记下来！”

评论区里，网友们纷纷称赞：VoxCPM 2再次提升了开源TTS的标准，它可能彻底改变我们创作音频的方式。

能玩转幽默，只是VoxCPM 2的基础能力。

它支持30种语言、9种方言，提供48kHz的CD级音质。无论是声音克隆还是情绪控制，它样样擅长，还有一项更独特的“音色设计”能力，能凭空创造出全新的声音。

别家需要多个模型组合完成的任务，它一个就能包办。开源、免费，附带完整工具链。

这个AI不是来参赛的，而是直接颠覆了现有格局！

五项实测，解析AI语音能力上限

一段录音输入，贺炜声音完美重现

音色克隆是VoxCPM 2的一大核心优势，属于独特功能。它实现了业界领先的克隆相似度，真正做到声音的逼真再现。

最近，张雪机车的热血故事刷屏网络。在WSBK葡萄牙站，张雪凭借个人实力，击败杜卡迪、川崎、雅马哈，打破了欧洲与日本长达百年的垄断，一战成名！

我们来试试，模仿贺炜的解说风格，用激情澎湃、热泪盈眶、骄傲自豪的语调，有节奏、有停顿地解说下面这段话：

比赛结束了！冠军！张雪和他的国产机车，在葡萄牙，在WSBK的赛场上，创造了历史！

此刻，波尔蒂芒赛道的空气仿佛凝固。我们看到张雪机车的车手在最后一个弯道压低车身，那不是简单的倾斜，而是理想主义者向地心引力发起的最后冲锋！

贺炜那直击心灵的激昂解说被完美复刻，这穿透屏幕的声音，让世界都听到：中国智造，已站在世界之巅。

一个字，绝。

方言一出，AI瞬间富有情感

AI能说中文不稀奇，但它能说出带着地方特色的家乡话吗？

VoxCPM 2支持9种中国方言：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。光看名单没感觉，得亲耳听听。

为了测试它的能力，我们请出《武林外传》中的经典角色。

首先，给模型输入一段佟掌柜的经典台词。原本担心AI会把陕西话说成“带口音的普通话”，结果音频一出，全办公室都安静了。

佟湘玉（陕西话）： “额错咧，额真滴错咧，额从一开始就不该嫁到这儿来……”

简直了，这个微微上扬的尾音，把那种风情又委屈的劲儿拿捏得死死的。

山东话中独特的重音和喜感，粤语里的文艺腔和江湖气，VoxCPM 2全都能驾驭。

燕小六（山东话）： “给俺照看好俺七舅姥爷！”

无双（粤语）：“有啲人天生血脉带风，注定一世都要漂泊。”

最后，再来几段富有故事感的。

我们给VoxCPM 2下达指令：“闽南语，女性，语气又凶又心疼”，让它扮演一个叫孙子回家吃饭的闽南阿嬷。

死囡仔！叫你紧来食饭你就装无听着！菜拢冷去矣！你若阁无来，碗筷我就收起来，今仔暗你去食风就好！......好啦好啦，紧来坐，我共你留一碗鸡汤。

闽南阿嬷催你吃饭，广东老师傅教你吃好。

我们让VoxCPM 2用粤语念一段干炒牛河的旁白，控制指令只写“像纪录片旁白，浑厚从容”。

一碟好嘅干炒牛河，镬气系灵魂。猛火烧镬，牛油落镬嘅一刻，成间厨房都系香味。河粉要炒到条条分明，牛肉要滑而唔韧。老师傅讲，干炒牛河唔系炒出嚟嘅，系“抛”出嚟嘅。

不紧不慢的讲述节奏，听完想立刻下楼找大排档。

上海话也不逊色。

先来一段上海阿姨吐槽邻居装修，语速快、嗲中带刺，每句话都透着不满。

侬晓得伐，阿拉隔壁邻居又开始装修了。礼拜六一大早就叮叮咚咚，我整个人困在床浪向，感觉自家屋里厢就像住在拆迁现场。我发消息过去讲，能不能轻一点？人家回我一句，“快了快了”。快了快了讲了三个号头了！

同样是上海话，这次换成低沉威严的中年男声，像老克勒靠在沙发上跟晚辈讲规矩。

我信过交情，也吃过生活。到如今我想通了，这个世界浪向，第一桩事体就是勿要让别人晓得侬心里厢到底想啥。侬今朝来寻我，我帮侬这个忙，但是将来总有一日，我要侬帮我做一桩事体。这桩事体，侬勿好推脱。

同一种方言，一个娇嗲入骨，一个冷峻到底。VoxCPM 2的掌控力，已不是“能说”，而是“能演”。

为何效果如此出色？因为模型抓住了方言中的语气词、停顿和情绪细节，方言不再是几种发音规则的组合，而是情感的复刻。

对于自媒体短视频、文化出海团队来说，这简直是核武器级的生产力。

凭空创造声优，还能千人千面

VoxCPM 2的另一项突出能力，是音色设计。

目前市面上多数模型只能对固定音色进行情感或风格控制，但VoxCPM 2支持任意音色的生成。

因此，我们可以先用文字创造一个理想声音，精确控制其情感和风格，为内容创作打开了无限空间。

比如下面这个武侠短剧的配音，无论是浪子侠客、活泼少女还是江湖老者，角色的贴合度都极其精细。

它不再是录音棚里冰冷、平淡的对白，而是带有呼吸声和情绪起伏。

这就是颠覆性的降维打击，从此无需四处寻找配音演员，VoxCPM 2一个AI就能生成千变万化的音色。

另外，我们还让VoxCPM 2设计了一段《恋与深空》男主沈星移对女主的表白。

设计细节如下。

音色：清澈男中音，偏冷调但非冰冷，类似“月光落在雪地上”的质感

语速：日常语速偏慢，约每分钟130-150字；内心戏时更缓

气息：句尾常有极轻的吸气或叹息感，表现隐忍

果然，VoxCPM 2瞬间还原了一个乙女游戏男主的音色，像是在克制情绪，却又藏不住对女主那份压抑的深情，表现满分！

温柔能设计，冷酷也能。

我们用控制指令设定一个人设：“中年男性，声音干涩发紧，语速很慢，每说完一句就停下来，音量始终很低，像是自言自语”，让它念一段鲁迅风格的吐槽。

我翻开朋友圈一查，满屏都写着两个字，副业。横竖睡不着，仔细看了半夜，才从字缝里看出字来，割韭菜。

没有参考音频，没有克隆对象，这个声音是VoxCPM 2仅凭一段文字描述从零生成的。

浪子侠客、深情男主、冷面文人，音色设计的极限取决于你的想象力。

李白痛饮，七句诗七种情感

甚至，我们能通过指令，让每一句话都带有不同的情感。

“弃我去者，昨日之日不可留”，指令写“声音沉缓，咬着字尾，像酒后吐郁气”。模型给出了每个字都顿一下的沉闷感，透着力度。

“长风万里送秋色”，指令写“像深吸一口气往外放，畅快激动”。“秋色”二字被明显拉长，声音瞬间打开。

“抽刀断水水更流，举杯销愁愁更愁”，指令写“语速放慢，音调降低，尾音拖长”。“愁更愁”三个字几乎是叹息，但又带着一股不甘。

从郁闷到豪迈，从悲伤到释然，每一句的情绪走向都精准跟随控制指令变化。

30种语言覆盖全球，哪吒出海无需翻译

除了音色克隆和设计，VoxCPM 2这次还实现了跨语种的降维打击。

它不仅支持30种全球主流语言，还特别强化了东南亚八国语言，包括泰语、越南语、印尼语、马来语、菲律宾语等。

要知道，这些语种全是出海团队最关注的领域，现在一个模型全包了。

说到这，就不得不提国产电影和电视剧的东南亚出海。

狂揽159亿票房的《哪吒之魔童闹海》中，哪吒有一段经典台词：“我命由我不由天，是魔是仙，我自己说了算！”

VoxCPM 2生成的泰语、越南语版本，都呈现出极其自然的原声质感。哪吒那种桀骜不驯的劲儿，在异国语境中被完美展现。

过去出海配音面临的文化隔阂、口音偏差和高昂人力成本，现在在VoxCPM 2面前，都已不复存在！

接下来，我们做一个东南亚语言的真实商业场景测试。

我们写了一段15秒带货广告脚本，用VoxCPM 2分别输出泰语、越南语、印尼语、马来语、菲律宾语五个版本。

控制指令统一设定为“年轻女性，清亮活泼，像电商直播主播推荐产品”。

早上好！新到的冰椰拿铁，椰香浓郁，入口丝滑。现在下单第二杯半价，今天喝过的朋友都回来复购了。别犹豫，点下面链接直接拍！

结果令人惊喜：五种语言切换下来，发音地道，连我们的东南亚朋友都听不出破绽。

成本呢？如果使用那些按字符收费的闭源平台，五种语言一天跑30条，一个月下来账单可能高达数千美元，让老板们心疼。

但如果是VoxCPM 2上场，成本也就是一张4090显卡的几度电费，对跨境电商团队极为有利！

五项测试跑完，克隆、方言、设计、情绪、多语种，没有一个场景让它露怯。

中国小模型全家桶独此一家

开发者纷纷用行动支持

在AI开源界，好用是一方面，配套是否齐全才是决定开发者是否用脚投票的关键。

这次，面壁智能提供的是全家桶级别的工具集，真正做到了让用户开箱即用。

部署层面，支持原生Torch推理、LoRA微调、全参数微调。高吞吐场景有专门的VoxCPM-NanoVLLM进行GPU推理。

生态层面，ComfyUI、WebUI插件一应俱全，甚至为性能爱好者准备了Rust语言重构版本。

从MiniCPM到VoxCPM，面壁智能一直坚持“高知识密度”路线，用更小的参数量（2B）打出超越百亿级的性能。

对开发者而言，部署成本更低，推理速度更快，端侧应用更灵活。

而它的开源路线，更是让人极力推崇。

要知道，现在语音模型的头部闭源平台ElevenLabs，仅Pro套餐每月就要99美元，而且只有50万字符额度，超出部分另算。

相比之下，VoxCPM 2完全开源，不收取任何费用，可随意修改和用于商业用途。

目前，VoxCPM 2的体验链接已上线，GitHub开源仓库在OpenBMB/VoxCPM，模型权重开放下载。

技术理想主义

让中国AGI更有“声音”

VoxCPM 2能做到这些，底层源于技术路线的选择。

目前开源TTS领域的主流技术路线是Token-based。它将连续的语音信号先切成离散的声学Token，再用语言模型逐个预测。这个过程不可避免地会丢失声学信息和情感细节。

VoxCPM 2走的是另一条路：扩散自回归连续表征。

用一个类比来解释。

Token-based的方法就像先把一幅油画拍成马赛克照片，再试图从马赛克还原油画。每次“打马赛克”都会丢失一些色彩过渡的细节。

VoxCPM 2的方法是在连续的颜色空间里作画，不经过马赛克这一步。声音的细腻纹理自然保留得更完整。

落到听感上，差异很明显。

你去听VoxCPM 2克隆出来的声音，气息感、齿音、喉咙的震动，这些微妙的声学细节保留得更好。

开头那段鲁迅的冷讽之所以能做到“不靠音量靠气息”，底层就是这条技术路线在支撑。

至此，AI语音的“暴力美学”时代正式结束，VoxCPM 2开启的是一个更细腻、更普惠的新时代。

这场比赛，已经被彻底终结。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176