大数跨境
0
0

深度|为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成?

深度|为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成? Z Finance
2025-12-11
8
导读:今年最猛的 AI 故事全在视频赛道

视频生成:AI创业的新爆发点

若将今年的AI创业图景绘制成热力图,最耀眼的区域并非模型底座或办公工具链,而是视频生成赛道。国内融资最快、估值增长最快的AI初创企业几乎全部集中于此。

Vivix创始人刘宇带领不到20人的团队,从年初创立到年末估值突破13.2亿美元,一年内完成三轮融资,迅速跻身独角兽行列,成为资本市场上增长最迅猛的AI公司之一。

其他视频生成企业同样表现亮眼:

  • 前月之暗面产品负责人王冠创办的ONE2X,累计融资近2300万美元;
  • 草根创业者阿彪凭借Pollo AI在7个月内实现2000万注册用户、600万月活,获1400万美元融资,并实现年化营收超2000万美元且盈亏平衡;
  • 爱诗科技于9月完成6000万美元B轮融资,刷新国内视频生成领域单笔融资纪录。

这些案例表明,只要产品具备可落地性和商业化能力,视频生成项目极易获得资本青睐。即便大厂全面入局,该赛道仍是少数仍具创业空间、差异化潜力和增长叙事能力的方向。

从OpenAI推出Sora应用,到Runway、Luma AI等海外新锐估值攀升,再到国内即梦、可灵、Pollo AI、ONE2X、Vivix集体发力,视频生成已从技术演示演变为资本、巨头与创业者三方博弈的核心战场。这不仅是技术迭代,更是一场关于“下一代内容形态”与“下一代交互界面”的战略押注。

为何是视频?

视频本是多模态中最难攻克的领域——需同时处理空间、时间维度及物理规律、角色一致性与镜头语言。按理应先完善文本与图像模型再向视频延伸,但过去18个月节奏已被打破。

一方面,模型能力快速提升。Runway Gen-4.5在第三方评测中位列视频模型榜首,其真实感、动作连贯性与镜头调度已接近专业广告水准。

另一方面,产品端出现爆款效应。OpenAI基于Sora 2推出的独立App上线数日即登顶苹果免费榜,下载量超过ChatGPT。

资本层面亦持续加码:Luma AI完成9亿美元融资,估值超40亿美元;Runway年化收入逼近9000万美元,主要来自视频相关产品;快手财报披露,可灵AI二季度单季收入超2.5亿元人民币,成为重点增长引擎。

上述数据揭示一个现实判断:在所有多模态方向中,视频是最贴近商业闭环的路径。广告、电商详情页、在线教育、游戏预告等场景普遍存在刚性视频需求,而传统制作成本高昂。大模型若要实现从PPT到现金流的转化,视频是首批可真正闭环的应用场景。

相比文本模型提升效率,视频模型能直接节省外包预算与人力编制,甚至重构整个创作流程。

大厂与创业公司的双轨竞争

当前视频生成赛道呈现两条清晰路线:

大厂路径:OpenAI通过Sora打通模型与消费级产品,Google以Veo绑定Gemini生态,字节跳动与快手则分别依托即梦、可灵深度整合内容、广告与电商体系。

创业公司路径则呈现多元化探索:

ONE2X:重构视频编辑语言

由前月之暗面产品负责人王冠创立,团队成员多来自头部科技企业。其产品Medeo定位为“创意表达工具”,支持对话式修改视频,保留上下文语境,并内置剪辑与工作流编排功能,实现动画、MV、广告等内容的“模板+自然语言”组合生成。

底层构建了面向视频的生成系统,采用领域特定语言(DSL)描述操作,结合Context机制将模糊指令映射为具体命令,使模型可理解“调暖色调、改为16:9比例、音乐推进2秒”等高度语义化指令。

Pollo AI:流量驱动的产品进化

创始人阿彪无大厂背景,早期依靠SEO运营多个出海工具积累经验。Pollo AI最初仅为接入可灵等API的简易平台,后发展为聚合主流视频与图像模型的一站式POE工具。

凭借对选品与流量窗口的敏锐把握,7个月内实现2000万注册、600万月活,年化营收突破2000万美元并实现盈亏平衡。其策略不自研模型、不投入巨额算力,而是通过产品力与运营能力最大化利用模型红利,逐步向“AI版剪映”或“视频版Canva”演进。

Vivix:重塑多模态交互基础设施

走最激进路线,试图以视频作为实时交互的第一语言,重构多模态智能底层架构。

其核心布局包括:

  1. 将视频推理视为系统工程问题,在低精度计算、自适应位宽、深度学习编译器与多维并行上进行系统级优化,目标实现“0.6T算力秒生成T秒画面”的实时推理能力;
  2. 摒弃语言为中心的架构,采用统一token空间实现视觉、音频、动作与语言的原生多模态共训,减少信息损失;
  3. 从第一天起就设想产品为“实时交互多模态内容”载体,用户不再是被动观看者,而是与AI系统实时对话、互动共创——视频成为持续生成的过程而非最终结果。

大厂优势在于资源与分发渠道,创业公司胜在敏捷与方向判断。视频生成之所以火热,正是因为两者在这一时间节点形成了罕见的战略共振。

技术核心:质量、速度与成本的三角博弈

表面看,视频生成比拼的是画面逼真度,实则背后是质量、速度与成本的三重博弈。

质量不仅指分辨率,更涵盖角色一致性、光影稳定性、物理规律遵守以及对运镜、拉焦、摇镜等专业指令的理解能力。Runway Gen-4.5、可灵、Sora等领先模型已能根据提示词生成电影级短片,支持控制景别变化与时间分段指令。

速度决定用户体验。几分钟生成10秒视频可用于Demo,但在实际创作、电商营销或互动游戏中不可接受。真正的挑战在于实现试错—预览—修改的快速迭代,乃至低延迟的实时交互体验。因此,Vivix、Luma等公司将大量精力投入编译器优化、低精度推理与多卡并行技术。

成本则是规模化前提。OpenAI估算,Sora类模型在自由生成模式下每日token成本可达千万美元级别,迫使其在产品设计中严格控制生成频率与时长。

一端是社交与创作类产品需提供高额度免费服务以吸引用户,另一端是广告主、影视公司关注“是否节省人力成本”“API单价能否打平ROI”。真正的技术竞争,是在可控成本下将质量提升至可用阈值,同时将延迟压缩至支撑创作与交互的水平。

从“做视频”到“用视频说话”:未来的交互革命

若仅视视频生成为低成本制作广告或带货视频的工具,那它只是技术升级;但若从Vivix等团队的视角出发,则能看到更深远的终局:

视频将从内容形式演变为一种新的交互语言

未来,人们不再仅用文字与模型沟通,而是直接通过视频与动作进行交互:

  • 上传一段客厅视频,AI实时生成装修方案;
  • 输入一句话加草图,系统自动生成产品介绍片、发布会视频与投放素材;
  • 在游戏中行动、说话、表情变化时,NPC与环境实时响应并重构剧情与画面。

支撑此类场景需三大能力:

  1. 强大的多模态理解能力,能识别环境、人物与行为;
  2. 极快的推理速度,实现“说一句,出一段”;
  3. 足够低的成本,确保可在手机、头显、网页等终端广泛部署。

正因如此,2025年的视频生成赛道虽拥挤却合理。它或将如触屏取代按键、短视频取代图文一般,深刻改变人与数字世界的交互方式。

【声明】内容源于网络
0
0
Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
内容 597
粉丝 0
Z Finance 我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
总阅读42.0k
粉丝0
内容597