今日,Meta收购了AI语音初创公司WaveForms,交易金额未对外披露。这是Meta为加强其新AI部门Superintelligence Labs所做的最新举措,也是该公司在过去一个月内的第二笔重大AI音频收购——此前Meta刚收购了PlayAI。
一、关于WaveForms
成立与融资:WaveForms成立仅8个月,曾从Andreessen Horowitz获得4000万美元融资,据PitchBook数据显示,该轮融资对公司的投前估值为1.6亿美元。
创始人加盟:公司的两位联合创始人已加入Meta,分别是前Meta和OpenAI研究员Alexis Conneau(在OpenAI期间参与创建了GPT4-o Advanced Voice Mode神经网络),以及前谷歌广告策略师Coralie Lemaitre。目前,TechCrunch已联系WaveForms,以确认其第三位联合创始人兼首席技术官Kartikay Khandelwal是否会加入Meta,以及公司约14名其他员工(据LinkedIn信息)在此次交易后的去向。
公司使命:虽然WaveForms已关闭自己的网站,但其LinkedIn页面显示,公司的使命是解决“语音图灵测试”(该测试旨在衡量听众能否区分人类语音和AI生成语音),同时还在开发“情感通用智能”,专注于理解个体的自我意识和自我管理。
二、WaveForms的技术优势
WaveForms作为一家专注于AI音频领域的初创公司,在技术层面展现出多方面的显著优势,这也是Meta收购它的重要原因之一。
前沿的音频大模型技术:致力于开发音频大模型(LLMs),采用创新的端到端音频处理技术。突破传统监督学习框架,运用独特的数据生成方法,如Fugatto技术,实现音频生成的灵活性和多样性,为语音交互的革新提供了技术基础 。
专注情感智能的语音交互:以实现情感通用智能(EGI)为目标,让AI具备理解和响应人类情感的能力。其技术能使AI语音交互更加自然且富有情感共鸣,避免传统语音交互的机械感,为用户带来更有意义和吸引力的互动体验,这在同类语音技术中具有创新性 。
强大的语音处理能力:核心团队成员在语音识别和自然语言处理领域经验丰富。创始人Alexis Conneau曾在OpenAI负责GPT-4o模型的语音模式功能研发,该模型展示了无延迟的实时响应以及处理中断的能力,这表明WaveForms在语音实时处理和复杂情况应对上具备深厚的技术积累 。
先进的模型架构设计:官方公布的Moshi技术由Helium语言模型、Mimi神经音频编解码器和全新的多流架构构成。这种设计推动音频生成技术朝着更高质量、更低延迟的方向发展,尤其适用于对实时性要求极高的音频处理场景,能满足用户对流畅、高质量语音交互的需求 。
技术研发的持续投入:完成4000万美元的种子轮融资,有充足资金用于进一步的技术研发,能够不断迭代和优化现有技术,探索更多音频技术的可能性,保持在AI音频领域的技术领先地位 。
三、收购WaveForms对Meta的发展有哪些影响?
Meta收购WaveForms,有望在技术提升、产品优化、战略推进等方面获得显著助力,为其在AI领域的长远发展注入新的活力,助力其在激烈的市场竞争中取得更有利的地位。
技术能力提升:WaveForms专注于检测和复制音频中的情感,其技术可让机器理解并模仿情感语调。Meta借此能获取先进的音频情感处理技术,增强自身在人工智能音频处理领域的实力,在语音识别、语音合成等方面取得技术突破,为后续开发更智能、更具情感交互能力的语音技术奠定基础 。
产品体验优化:有助于Meta让语音助手更具人性化特点,使语音交互更加自然、流畅,提升用户体验。在虚拟现实、社交平台等产品中融入WaveForms的技术,为用户打造更真实、沉浸感更强的交互场景,增强产品的吸引力和竞争力,吸引更多用户使用其产品和服务。
人才储备扩充:WaveForms的两位联合创始人Alexis Conneau和Coralie Lemaitre加入Meta的超级智能实验室。Conneau曾在Meta和OpenAI从事相关研究,有丰富的经验;Lemaitre也有在谷歌的工作经历。他们的加入为Meta带来了新的技术思路和创新理念,充实了Meta的AI人才队伍,为公司在AI领域的持续创新提供智力支持 。
战略布局完善:Meta持续调整人工智能战略,此次收购是其AI音频领域布局的重要一环。继收购PlayAI后,进一步强化了Meta在语音AI方面的布局,反映出Meta打造更具对话性、同理心和直观性AI的战略意图,助力Meta在人工智能领域的全面发展,提升其在AI行业的地位 。

