国产大模型在全球市场正不断刷新人们对中国人工智能产业的认知,上海企业MiniMax稀宇极智近日发布的新一代语音大模型Speech-02在两份国际权威语音评测榜单上占据榜首MiniMax还接入全国首个文旅MaaS平台以AI助力上海文旅场景焕新升级。汇正财经联合上海人民广播电台“新质生产力调研行”第三站走进稀宇极智科技有限公司,探寻大模型快速迭代背后的创新活力。
让声纹浪潮席卷世界每一处
“MiniMax重磅推出全球领先声音大模型,支持超拟人语音合成与实时克隆……”这是本台主持人姜雯的声音,却并非从姜雯的嘴里说出。从她播报的天气新闻里截取10秒的采样后,稀宇极智的语音专家张如欢轻敲几下键盘,五月最新发布的语音大模型Speech-02就生成了几可乱真的音频。
张如欢介绍,目前市面上的语音合成产品,只有中文和英文有很多音色的选择,但是有了Speech-02这种“超拟人”的语音合成大模型,“32个小语种都可以有成千上万个音色,去合成任意的文本”。
他分享了一个温暖的案例:“我们之前有一个客户,有一位亲人离世。他把他跟亲人之间的对话记录、微信语音都保存下来。然后我们用这些资料,复刻了一个他亲人的数字孪生。”张如欢介绍,先通过文字聊天记录来复刻亲人的语言风格,再通过语音信息来复刻他的音色,“客户在亲人离世之后,还可以跟亲人进行一个正常的语音或者是文字的交互。”
稀宇极智开发者社区负责人蔡佳人也自豪地补充:Speech-02模型刚刚发布,就迅速在国际最权威的两项语音评测榜单Artificial Analysis和Hugging Face TTS Arena上,力压OpenAI、ElevenLabs等国际巨头,荣登双榜榜首,取得了SOTA(当前最高水平)结果。
Hugging Face TTS Arena 评测榜单
值得一提的是,Speech-02是这两份榜单上,唯一的中国竞争者。“我们是第一个把大语言模型技术带入音频模型的厂商,我们可以通过超强的泛化能力,把多语言的能力一次性地完成在我们的模型里”,蔡佳人说。
“在这样一个群雄逐鹿的时代,国内国外人工智能赛道的竞争都非常激烈,大家都想去占一占这个高地、分一分这个蛋糕。”汇正财经首席投资顾问姚中元评价,“有那么多人在手机端的应用中,会使用到稀宇的工具和它的APP,这就给到我们很大的一种惊喜。也就是说在弯道超车领域中,它已经走出了坚实的一步了。”
从单图生视频到文旅 MaaS 平台,AI 赋能千行百业 “创意民主化”
不止音频,稀宇的MiniMax-01通用大模型包含了文本、音频和视频三条主力模型线,尤其是自研的超长上下文处理能力,性能一骑绝尘。基于大模型也推出海螺视频、星野(AI社区)等原生应用。
现在主流的文生视频或图生视频模型,需要包括人脸、场景和关键信号点的3-5张图片,就能生成一个类似的视频,而稀宇的模型,可以支持单张图片。“只要有无限的创意,结合我们AI的这种能力,可以让每个人都成为大片导演。”张如欢肯定地说。
成立仅3年的稀宇,如何实现这些技术?“其实AGI(人工通用智能)不仅是参数的军备竞赛,也是技术思维方式的竞赛,MiniMax的模型上,我们在几方面走出了一些创新的道路。”蔡佳人举例说,“线性注意力机制、MoE架构、data packing技术,上下文窗口最高可以达到400万token,让MiniMax模型又快又好。” 除此之外,三条主力模型线也做到了多模态协同、共同设计。比如语音合成的情绪控制就依赖了文本模型的上下文理解能力,音质的提升也使用了视频模型团队在持续建模上的创新。
目前,在互联网娱乐、办公、教育、医疗、金融等方面,稀宇都有一些头部客户。对于普通用户来说,也可以通过上海AI+文旅MaaS平台,调用稀宇的文生视频、图生视频、以及导演运镜模式的图生视频等五大模型。
“新质生产力调研行”是由上海人民广播电台上海新闻广播和汇正财经共同发起的融媒体新闻行动,携手产业部门、专家学者、市场机构实地探访企业,解析变革,洞察趋势。汇正财经作为国内领先的专业证券投资咨询机构,始终以“前瞻视角”锚定产业变革脉络。此次与上海人民广播电台上海新闻广播的合作,既是媒体公信力与金融专业性的深度融合,更是推动产融共进的关键实践。通过实地探访一系列前沿科创企业,不仅为公众揭开新质生产力的技术内核,更搭建起资本与产业对话的桥梁——媒体以深度报道传递行业价值,金融机构以前瞻研究预判投资风向,共同助力各类科创产业生态从“认知破圈”迈向“价值落地”。

