大数跨境
0
0

多模态内容生成,为什么是属于中国公司的机会?

多模态内容生成,为什么是属于中国公司的机会? 靖亚资本 Eminence
2025-06-24
38
导读:晚点 LatePost 程曼祺、PixVerse 谢旭璋、VAST宋亚宸 以及 Feeling AI 戴勃 在 2025 AI Cloud 100 大会颁奖现场的对话

多模态生成,为何中国团队迎来历史性机遇?

人才积累、场景优势与工程落地能力,推动中国创业公司在视频与3D生成领域跻身全球第一梯队

2025年,多模态技术加速演进,中国创业团队在视频生成、3D创作等细分领域已进入全球领先行列。Pixverse、VAST和Feeling AI等企业分别在视频生成速度、3D建模效率与多模态融合路径上取得突破,展现出中国团队在场景理解、数据积累和工程化能力方面的综合优势。

中国团队的三大核心优势

谢旭璋(Pixverse联合创始人)指出,过去十年全球最具影响力的视频应用如抖音、快手均出自中国团队,其背后积累的视觉技术为AI视频生成奠定了坚实基础。国内团队在人才储备与工程落地节奏上具备显著优势,目前全球用户规模领先的视频生成产品多由中国团队开发。

戴勃(Feeling AI创始人)认为,多模态技术路径尚未定型,为创新提供了广阔空间。中国拥有丰富的应用场景和庞大的AI人才储备,尤其在计算机视觉领域具备集群效应,这为技术迭代提供了持续动力。

宋亚宸(VAST CEO)强调,中国团队通过差异化技术策略实现突围。在3D生成领域,海外公司早期聚焦产品打磨,而中国团队集中突破核心算法,在模型质量与生成效率上建立先发优势。当前行业正从技术攻坚转向产品化阶段,工程化与商业化能力将成为下一阶段竞争关键。

大厂入局是“成人礼”,创业公司靠战略定力破局

面对阿里、腾讯等大厂相继发布通义、混元系列多模态模型,创业公司并未被动应对。宋亚宸表示,大厂竞争是创业公司的“成人礼”。VAST在AI 3D尚未被广泛关注时即投入核心技术研发,当大厂跟进时,公司已转向产品化阶段,形成战略节奏上的领先。

他坦言,随着行业热度上升,人才争夺与算力竞争加剧,但创业公司的核心优势在于“做下一件事”的敏捷性。例如,VAST在完成底层模型构建后,迅速推出Tripo Studio工作台,切入专业用户市场,抢占工程与产品人才新赛道。

戴勃指出,多模态领域尚未形成统一技术范式,创业公司仍有大量非共识路径可探索。技术竞争力体现在产品与模型的深度融合,而非单纯架构创新。开源虽有助于技术扩散,但难以满足特定场景需求,深度定制与自主创新仍是关键。

谢旭璋补充,当前领先的视频生成模型多为闭源,核心差距体现在工程化与产品化投入。例如,Pixverse可在数秒内生成高质量视频,远超开源模型的分钟级耗时,凸显从技术到体验的闭环能力。

实时生成与多模态融合:下一阶段技术焦点

多位嘉宾认为,“生成与理解的统一”是重要趋势。戴勃指出,传统多模态模型将图像、文本分离处理再拼接,而新一代架构正尝试在训练阶段实现语义空间共享,提升指令执行精度与主体一致性。这种融合可类比为“语言Agent调用视觉工具”,随迭代而愈加精准。

谢旭璋透露,Pixverse已实现接近实时的视频生成,5秒内可产出5秒视频内容,目标是在一年内达成真正的实时生成。该能力或将催生“可交互视频游戏”等新形态内容,打破短视频与游戏的边界。

宋亚宸介绍,VAST正从传统扩散模型转向自回归生成路径,类似“磁力片”式逐块构建3D模型,显著提升生成效率与拓扑合理性。在与网易《燕云十六声》合作的“万物太极”功能中,玩家指令可在5秒内生成可用的3D桥梁或梯子,满足游戏场景的实时交互需求。

用户策略调整:从专业到大众,再回归专业工具链

谢旭璋回顾,Pixverse最初服务专业用户,2025年5月推出“拍我AI”App后转向大众市场。依托图生视频技术突破与模板化创作模式,用户只需上传图片即可一键生成短视频,大幅降低创作门槛。目前普通用户占比超七成,验证了大众化路径的可行性。

宋亚宸坦言,行业曾普遍误判3D内容的UGC发展路径。简单模仿图文“输入-输出”模式难以建立可持续生态。VAST因此转向服务专业与准专业创作者(PUGC),推出Tripo Studio,构建覆盖生成、贴图、骨骼绑定等环节的完整工作流,打造真正的3D创作工具链。

他预测,未来3D领域将出现类似“美图秀秀”的轻量化产品,但当前阶段仍需优先夯实专业工具基础。戴勃则表示,Feeling AI将聚焦海外14-24岁年轻群体,融合轻游戏、内容创作与虚拟陪伴,推动“边消费边创作”的混合模式普及。

随着生成速度提升、交互实时化与多模态融合深化,多模态内容创作正迈向全民化时代。中国创业团队凭借敏锐的场景洞察、扎实的工程能力和灵活的战略调整,正在这一全球竞争中占据关键位置。

AI时代下的3D内容创作:技术突破与用户需求的平衡

程曼祺:你认为2025年-2026年,技术进步能否推动普通To C用户更广泛地创作和消费3D内容?

戴勃:会的,尤其是动态3D内容。AI显著加速了这一进程,尽管即使没有AI,行业也在朝这个方向发展,AI只是让未来提前到来。

程曼祺:当前Agent概念火热,但你们的新产品Tripo Studio并未采用这一命名,爱诗也未布局Agent,如何看待这一现象?

宋亚宸:我们避免使用“Agent”一词,因为它不易被普通用户理解。产品命名应以用户认知为基础,而非追逐行业术语。“工作站”是专业用户熟悉的概念,而“Agent”则不然。产品设计应源于真实需求,而非热词驱动。

程曼祺:Agent是否更适合面向媒体、投资或创投圈?

谢旭璋:关键在于Agent能否为用户创造实际价值。当前移动端引入Agent往往带来等待成本和操作复杂性。我们的产品追求极简体验——拍照、选模板、生成、一键分享。在To C场景中,Agent的价值尚不清晰。但在专业视频创作领域,如多模态协同(叙事、剪辑、配音、配乐、转场),Agent具备明确应用潜力。我们正在探索如何定义真正有效的视频创作Agent产品。

程曼祺:是否意味着更智能化、自动化的视频创作工具?

谢旭璋:是的,但完整生成高质量视听作品仍极具挑战。即便拥有先进Agent,也仅是迈出一小步。优秀作品的核心在于好故事,而故事创作涉及诸多尚待解决的问题。

戴勃:Agent的定义本身存在多样性。从技术角度看,原生多模态可视为语言Agent与其他模态的交互,其优势在于将原本独立训练的模块通过协同机制整合,形成更强大的联合模型或技术管线,从而拓展整体能力边界。

未来一年:目标与挑战

程曼祺:展望未来一年,团队的核心目标与主要挑战是什么?

谢旭璋:技术目标是实现高质量的实时生成视频模型;用户目标是覆盖3亿至5亿用户。

戴勃:希望进入AI Cloud 100 China榜单,核心任务是提升产品使用率,并在过程中沉淀优质内容生态。

宋亚宸:我们坚信3D领域必将出现大众化创作工具,显著降低门槛与成本,让每个人都能参与可交互3D内容的创作,如自制游戏或动画。若实现,未来有望诞生“3D版抖音”式的UGC内容平台。我们的目标是在明年让大众以低门槛、低成本、近乎实时的方式创作简单3D交互内容。探索这一新内容形态的生态构建与内容范式,将是最大挑战,也是核心探索方向。

【声明】内容源于网络
0
0
靖亚资本 Eminence
各类跨境出海行业相关资讯
内容 273
粉丝 0
靖亚资本 Eminence 各类跨境出海行业相关资讯
总阅读16.0k
粉丝0
内容273