新质生产力调研行 | MiniMax：多模态创新擘画 AI 产业新图景- 大数跨境

汇正财经

2025-05-22

国产大模型在全球市场正不断刷新人们对中国人工智能产业的认知，上海企业MiniMax稀宇极智近日发布的新一代语音大模型Speech-02在两份国际权威语音评测榜单上占据榜首MiniMax还接入全国首个文旅MaaS平台以AI助力上海文旅场景焕新升级。汇正财经联合上海人民广播电台“新质生产力调研行”第三站走进稀宇极智科技有限公司，探寻大模型快速迭代背后的创新活力。

让声纹浪潮席卷世界每一处

“MiniMax重磅推出全球领先声音大模型，支持超拟人语音合成与实时克隆……”这是本台主持人姜雯的声音，却并非从姜雯的嘴里说出。从她播报的天气新闻里截取10秒的采样后，稀宇极智的语音专家张如欢轻敲几下键盘，五月最新发布的语音大模型Speech-02就生成了几可乱真的音频。

张如欢介绍，目前市面上的语音合成产品，只有中文和英文有很多音色的选择，但是有了Speech-02这种“超拟人”的语音合成大模型，“32个小语种都可以有成千上万个音色，去合成任意的文本”。

他分享了一个温暖的案例：“我们之前有一个客户，有一位亲人离世。他把他跟亲人之间的对话记录、微信语音都保存下来。然后我们用这些资料，复刻了一个他亲人的数字孪生。”张如欢介绍，先通过文字聊天记录来复刻亲人的语言风格，再通过语音信息来复刻他的音色，“客户在亲人离世之后，还可以跟亲人进行一个正常的语音或者是文字的交互。”

稀宇极智开发者社区负责人蔡佳人也自豪地补充：Speech-02模型刚刚发布，就迅速在国际最权威的两项语音评测榜单Artificial Analysis和Hugging Face TTS Arena上，力压OpenAI、ElevenLabs等国际巨头，荣登双榜榜首，取得了SOTA（当前最高水平）结果。

国际权威语音评测榜单 Artificial Analysis

Hugging Face TTS Arena 评测榜单

值得一提的是，Speech-02是这两份榜单上，唯一的中国竞争者。“我们是第一个把大语言模型技术带入音频模型的厂商，我们可以通过超强的泛化能力，把多语言的能力一次性地完成在我们的模型里”，蔡佳人说。

“在这样一个群雄逐鹿的时代，国内国外人工智能赛道的竞争都非常激烈，大家都想去占一占这个高地、分一分这个蛋糕。”汇正财经首席投资顾问姚中元评价，“有那么多人在手机端的应用中，会使用到稀宇的工具和它的APP，这就给到我们很大的一种惊喜。也就是说在弯道超车领域中，它已经走出了坚实的一步了。”

从单图生视频到文旅 MaaS 平台，AI 赋能千行百业 “创意民主化”

不止音频，稀宇的MiniMax-01通用大模型包含了文本、音频和视频三条主力模型线，尤其是自研的超长上下文处理能力，性能一骑绝尘。基于大模型也推出海螺视频、星野（AI社区）等原生应用。

现在主流的文生视频或图生视频模型，需要包括人脸、场景和关键信号点的3-5张图片，就能生成一个类似的视频，而稀宇的模型，可以支持单张图片。“只要有无限的创意，结合我们AI的这种能力，可以让每个人都成为大片导演。”张如欢肯定地说。

成立仅3年的稀宇，如何实现这些技术？“其实AGI（人工通用智能）不仅是参数的军备竞赛，也是技术思维方式的竞赛，MiniMax的模型上，我们在几方面走出了一些创新的道路。”蔡佳人举例说，“线性注意力机制、MoE架构、data packing技术，上下文窗口最高可以达到400万token，让MiniMax模型又快又好。” 除此之外，三条主力模型线也做到了多模态协同、共同设计。比如语音合成的情绪控制就依赖了文本模型的上下文理解能力，音质的提升也使用了视频模型团队在持续建模上的创新。

目前，在互联网娱乐、办公、教育、医疗、金融等方面，稀宇都有一些头部客户。对于普通用户来说，也可以通过上海AI+文旅MaaS平台，调用稀宇的文生视频、图生视频、以及导演运镜模式的图生视频等五大模型。

人工智能的市场规模，正在以倍数级别增长 ——2023年中国人工智能的市场规模约4,000亿元，2025年接近7,000亿，而到2027年的目标要达到1.5万亿。姚中元估算，稀宇科技参与的赛道，可能已经达到了千亿规模，潜力非常巨大。这种在未来5到10年都会高成长高景气的赛道，姚中元以不久之前的新能源汽车赛道作比：“特斯拉和比亚迪为什么知名度高？是因为销量好、受众面广、技术成熟，所以它才能够从新势力当中脱颖而出。谁将成为下一个宁德时代，谁将成为下一个比亚迪，我觉得都是有可能的。”

“新质生产力调研行”是由上海人民广播电台上海新闻广播和汇正财经共同发起的融媒体新闻行动，携手产业部门、专家学者、市场机构实地探访企业，解析变革，洞察趋势。汇正财经作为国内领先的专业证券投资咨询机构，始终以“前瞻视角”锚定产业变革脉络。此次与上海人民广播电台上海新闻广播的合作，既是媒体公信力与金融专业性的深度融合，更是推动产融共进的关键实践。通过实地探访一系列前沿科创企业，不仅为公众揭开新质生产力的技术内核，更搭建起资本与产业对话的桥梁——媒体以深度报道传递行业价值，金融机构以前瞻研究预判投资风向，共同助力各类科创产业生态从“认知破圈”迈向“价值落地”。

【声明】内容源于网络

汇正财经

汇正财经，中国证监会首批颁发认证的专业投资咨询机构。以“帮助投资者实现财富保值、增值”为使命，为投资者理清投资管理目标、捕捉市场价值洼地、研判行业潜在价值、制定精准投资策略。温馨提示：观点仅供参考学习，不构成投资建议，操作风险自担。

内容 2005

粉丝 0

汇正财经汇正财经，中国证监会首批颁发认证的专业投资咨询机构。以“帮助投资者实现财富保值、增值”为使命，为投资者理清投资管理目标、捕捉市场价值洼地、研判行业潜在价值、制定精准投资策略。温馨提示：观点仅供参考学习，不构成投资建议，操作风险自担。

总阅读822

粉丝0

内容2.0k