大数跨境
0
0

可灵 O1 全能视频模型:一个引擎包揽“生片+改片+续片”,视频创作者要紧张了

可灵 O1 全能视频模型:一个引擎包揽“生片+改片+续片”,视频创作者要紧张了 AI软件测评说
2025-12-03
3
导读:昨天在刷可灵的时候,发现他们悄悄丢了个大招:可灵 O1,全能视频模型。

昨天在刷可灵的时候,发现他们悄悄丢了个大招:可灵 O1,全能视频模型。

那种感觉有点像

你原本准备开一堆网页切来切去,结果突然发现,别人把“视频生成+视频编辑+风格重绘+镜头衔接”全塞进同一个引擎里了,而且还真能跑起来。

先从“它到底是个啥”说起。

官方给可灵 O1的定位,是全球首个统一多模态视频模型

重点有两个关键词:统一、多模态

统一的意思是,以前文生视频一套模型、图生视频一套、视频局部编辑再来一套,现在全部揉成一个底座,参考视频、首尾帧、内容增删、风格重绘、镜头延展,全走同一个管线。

多模态也不再是那种“我能同时收文本和图片哦”的浅层玩法,而是你可以同时塞进一段文字提示、几张参考图、一个小视频片段,模型会把这些统统当成“指令”,综合理解,再吐出一条完整的视频。

我先随便举几个典型场景,你大概就知道这个东西更适合谁了。

比如你只想用一张主视觉海报,拉一条“动态开屏短片”: 以前要么丢给图生视频工具,要么交给剪辑师手搓

现在的路子可以是——给一张图,配一段文案,要求“镜头从左到右环绕角色,3秒内出现品牌Logo”,剩下交给 O1 生成。

又比如你已经有一个品牌视频,但中间几秒钟的产品颜色、衣服风格突然不想要了,以往要么让设计师画遮罩、调跟踪,要么找专门的视频编辑模型;

O1 这次走的是“对话式剪辑”:直接打字“把主角衣服换成黑色”“把白天改成黄昏”,引擎会在像素级别做语义重构,把该改的片段替换完,背景和光影逻辑都尽量保持连贯。

甚至你可以给一小段参考视频,让它按同样的运镜方式,去拍一场完全不同的场景,比如保留那种从地面推到空中的运动轨迹,把内容换成一辆赛博风格的飞车。

但说到“全能”,我还是想拆细一点。

图像/主体参考这块,可灵在底层特意强化了“记住人和物”的能力,支持多视角去定义一个主角或者一个产品,让模型像导演一样“认人”,不管镜头怎么转、景别怎么切,角色特征保持稳定,这点是他们重点宣传的卖点之一。

在视频编辑这块,它把“增加内容、删除内容、切换视角、改主体、改局部、改风格、改颜色、改天气、绿幕抠像”等一大串能力,统统塞进“指令变换”这个篮子里,然后允许你一次性组合使用,例如“在视频里加一只猫,同时把背景改成赛博朋克夜景”,不需要开多个工具链。

还有一个比较有意思的是“首尾帧”能力:你可以只给一个首帧,也可以同时给首尾两帧,再配上一点文字描述,比如“镜头从室内走到海边,角色从背影转正面”,模型会尝试按你设计好的起点和终点,生成中间的故事过渡,长度可控在 3~10 秒之间。

我最关心的,其实还是“它跟别人比强在哪”。

在官方披露的内部评测里,可灵挑了两块自己觉得最有代表性的任务来跟竞品对打:

图片参考,用来对标 Google Veo 3.1 的 Ingredients to Video;

以及指令变换,用来对标 Runway Aleph。

他们自己的统计是,在图片参考任务上,可灵 O1 对 Veo 3.1 的整体偏好胜负比大约是 247%,在指令变换任务上,对 Runway Aleph 的胜负比是 230%,评价维度覆盖角色、物品、风格等不同类型,样本由内部评测集和多名人工评审打分得出。

当然,这属于厂商自测结果,没有完全公开的 benchmark 可以复现,所以只能当“参考情报”,但至少能看出他们的产品野心是瞄准 Veo 和 Runway 这一档,而不是只做一个国内自娱自乐的小玩具。

有意思的是,这次 O1 的技术路线,本身也挺“姿态鲜明”。

一方面,它是围着一个叫 MVL(Multi-modal Visual Language,多模态视觉语言)的概念在转;简单说,就是把文本、图片、视频里的视觉信号,全部映射到同一套“语言”空间里,再用多模态 Transformer 和长上下文机制去做统一理解。

参考图:

参考视频:

另一方面,它并不是只盯生成,而是从架构层面就把“生成+编辑+理解”三件事绑在一起,靠一个长时序上下文去处理时间连续性和空间一致性,这样同一条时间线上,角色不仅长得一致,动作也不会突然穿帮太严重。 在推理侧,官方也提到它会结合类似 Chain-of-thought 的技术去处理事件推演和常识逻辑,目的是让视频编辑更“懂场景”,比如你说“把白天改成雨夜”,它要顺带改的不只是亮度和色温,还包括路灯、车灯、倒影这些细节的协调。

输出效果:


说到这里,可能有人会问:这些听起来确实很厉害,但对普通创作者、短视频团队、甚至做广告的甲方来说,意味着什么?

对小团队来说,最大的改变就是“少开几个软件,多开几次对话框”

以前你可能要先用 A 生成草图,再拿到 B 修风格,再丢给 C 做剪辑,现在至少在可灵这个生态里,可以用 O1 把这些环节尽量压在一次生成或少数几次迭代中,节省来回倒腾的时间成本。

对需要严控品牌形象的团队,主体一致性多主体融合是关键:O1 支持多个角色、多个道具一起“记住”,让你在复杂的群像场景里,保证每个人物在不同镜头中都长得一样,这点对广告、剧情短片、虚拟人账号来说非常有用。

再往前看一点,如果把 O1 当成基础设施,你可以在外面套上自己的工作流:比如接入脚本系统,根据运营需求自动生成多版本物料,然后用 O1 做图像/主体参考和风格变体,最后再接内测的 Agent 类工具做自动测压和投放试验,这条链路其实已经很接近“半自动创意工厂”的雏形了。

当然,别被“全能”两个字冲昏头脑。

一来,不管是和 Veo 3.1,还是和市面上其他视频模型的对比,都还停留在厂商自建评测集的阶段,严格意义上的公开 benchmark 还没统一,普通用户用到的,只能是“肉眼主观体验+社区口碑”。

二来,这种高度统一的模型,意味着每次升级、每次 bug 修,都牵一发而动全身,你不可能指望它在所有任务上都拔尖,某些极端长时序、复杂物理场景,目前还是 Sora 一类模型更有话语权。

三来,它再聪明,本质还是视频层面的“创作引擎”,而不是一键帮你想清楚“这支广告到底说什么”“这个 IP 未来三个月怎么讲故事”的那种东西,后者只能靠人,或者靠你自己堆一层更高阶的 Agent 去管规划和拆解。


写到这里,才反应过来,可灵这波“ O1 ”命名,也挺有意思。

一边是在和 OpenAI、字节、谷歌这些家的 “o1 / omni / 统一模型” 对话,说自己在视频维度也有一颗“通才底座”。

另一边,对普通创作者、做生意的人来说,它真正代表的,也许是一个更朴素的问题:当你可以随时把想法变成一条还看得过去的视频,当剪辑、调色、风格迁移都变成一句句自然语言,那你到底还剩下什么工作,是模型替代不了的?

工具会越来越全能且越来越聪明,这点没啥悬念。

但“你到底想拍什么”“你敢不敢拍不一样的东西”,这两句。

暂时还是得我们自己说。

项目直通:https://app.klingai.com/cn/release-notes/vaxrndo66h

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

【声明】内容源于网络
0
0
AI软件测评说
专注分享Vibe Coding、独立开发Ai 工具和创业灵感
内容 385
粉丝 0
AI软件测评说 专注分享Vibe Coding、独立开发Ai 工具和创业灵感
总阅读1.5k
粉丝0
内容385