Captions:AI口型匹配技术重塑视频翻译
利用AI轻松实现视频翻译本地化
Captions是一家由Gaurav Misra和Dwight Churchill联合创办的AI初创公司,开发了LipDub工具。该技术通过AI生成字幕、语音纠正及口型匹配,让视频内容跨越语言障碍。
Misra表示,口型匹配技术的发展远超预期,新技术已能自然地实现配音效果,而不会显得机械或人工调整。这一突破使得视频更易于理解和接受,甚至媲美《星际迷航》中的科幻设定。
LipDub目前已获得Kleiner Perkins领投的2500万美元B轮融资,并支持28种语言,包括韩语、西班牙语、捷克语等,采用零样本模式处理未曾见过的内容。
其核心技术基于内部机器学习算法和OpenAI的GPT-4模型,可识别唇部动作并进行高质量视频翻译。自今年3月发布以来,Captions日活跃用户已达10万,预计LipDub将带来更大增长。
HeyGen:快速崛起的多语言视频平台
来自中国,7个月收入百万美元
HeyGen是短视频内容AI口型匹配和翻译领域的重要玩家之一。自推出视频翻译功能后,迅速在X平台上走红,并获得全球用户认可。
HeyGen的目标是“消除语言障碍”,目前支持10种输入语言和8种输出语言,如英语、中文、西班牙语、印地语和日语。教育平台Coursera、Khan Academy等正尝试将其应用于多语言课程制作。
公司创始人Joshua Xu和Wayne Liang曾创办深度伪造视频平台Surreal,于2022年推出HeyGen,并在7个月内实现100万美元ARR(年度经常性收入),月均增长率达50%。
HeyGen获得红杉资本、IDG资本、真格基金和百度风投的投资,总额至少达900万美元。C端用户按月付费,起价为24美元/月,并支持声音克隆、人像精调等高级功能单独收费。
Verbalate:被播客启发的配音平台
不同的是,Verbalate可为长达30分钟的视频配音
Verbalate由Grant Davies创立,最初灵感来源于Joe Rogan与MrBeast播客访谈中关于多语言配音的讨论。团队借助AI技术实现了自动视频配音。
与HeyGen不同,Verbalate最低订阅计划每月9美元,可创建10分钟长视频,每增加一分钟需额外支付1美元。适用于企业向海外员工发送母语信息,帮助提高沟通效率。
除了实用价值,Davies希望这种技术能够打破语言偏见,促进跨文化理解,甚至提升人类之间的共情能力。
AI口型同步技术的应用前景
Spotify近期推出的AI翻译播客功能也采用了类似技术,结合OpenAI的语音生成系统,实现保持原音色语调的多语言转换。
LipDub、HeyGen、Verbalate以及MARZ等平台正推动着电影、教育、电商等多个行业的全球化进程,同时也为小企业提供了与大公司公平竞争的机会。
MARZ旗下的LipDub AI专注于影视内容创作,其处理时间控制在一分钟片段不超过20分钟,未来将无需训练数据,仅靠音频和原始视频完成配音。

