0.15 美元一支短片：AI 视频的护城河正从模型挪向技能文件- 大数跨境

AI Reading Hub

2026-06-22

导读：一个一周冲上 GitHub 趋势榜的开源项目，把"用 AI 做视频"重写了一遍。它最值得琢磨的地方不在生成质量，而在它对价值在哪一层的判断——附一个能复用的 AI 能力三层栈定位工具。

这两天 GitHub 趋势榜上冲出来一个叫 OpenMontage 的开源项目，一周左右涨了六千多颗星。它的自我介绍很大：世界上第一个开源的、agent 驱动的视频生产系统，12 条流水线、52 个工具、500 多个 agent skill。

数字之外，更抓人的是它放出来的成本单。一支 60 秒的动画短片《最后一根香蕉》，用了 6 段 Kling 视频、Google 的 TTS 配音、配乐和字幕，全流程花了 1.33 美元；一支吉卜力风格的《糖果国》，12 张 FLUX 图加运镜、粒子、音乐，0.15 美元；一支产品广告，4 张图加配音配乐加字幕，0.69 美元。如果走纯本地路线——Piper 本地配音、Archive.org 和 NASA 的免费素材、Remotion 合成——成本可以压到零。

很多人看到这里的第一反应是：AI 做视频又便宜了一个量级。这个反应没错，但它停在了表层。这个项目最值得花十分钟琢磨的，是它对一个问题的回答：当模型本身越来越便宜、越来越同质，做视频这件事的胜负手到底落在哪一层。OpenMontage 给出的答案，藏在那 500 个技能文件里。

大多数 AI 视频工具卡在"出片段"

先把市场上的常见形态摆清楚。今天绝大多数 AI 视频产品做的是一件事：你给一句提示词，它给你一段几秒到十几秒的片段。Runway、Kling、Veo、Pika，能力一代比一代强，画面一代比一代真。

但凡自己剪过片子的人都知道，从一堆漂亮片段到一支能交付的视频，中间隔着的工序才是真正费人的地方：选题要先做调研，知道这个话题观众在问什么、哪个角度有传播点；脚本要分镜，每个镜头配什么画面、什么节奏；素材生成出来要筛选、要增强、要调色；配音配乐字幕要对齐;最后合成、压制、检查有没有翻车。一个人做完整套，AI 帮你省的那点出片段时间，在整条链路里占比并不高。

这就是 OpenMontage 想补的缺口。它不做更强的生成模型，它做的是把上面这条链路整个交给 agent 来跑：你用大白话描述想要什么，agent 自己去调研、写脚本、排分镜、调工具生成素材、剪辑、合成、自检，最后吐出成片。它把视频生产从一门需要盯着每一步的手艺，改写成了一套可以下命令、可复现、能审计的流程。

拆开看，它把视频生产分成了三层

要理解它为什么值得写，得把它的结构拆开。OpenMontage 内部是一个清晰的三层知识系统，这三层恰好对应了今天整个 AI 应用栈正在分化的三层。

第一层是工具。 52 个工具背后接的是 14 个视频源(Kling、Runway Gen-4、Veo 3、本地的 WAN、混元、CogVideo……)、10 个图像源(FLUX、Imagen、DALL-E 3,以及本地 Stable Diffusion)、若干 TTS 和配乐。注意这里的关键设计：所有这些模型在系统眼里都是可替换的零件。今天 Veo 强就调 Veo,明天某个开源模型追上来,换一行配置的事。

第二层是编排。 12 条流水线(动画解说、纪录片混剪、虚拟主播、电影感短片、屏幕演示……)每一条都走同一套骨架:调研 → 提案 → 脚本 → 分镜 → 素材 → 剪辑 → 合成。agent 在每个工具选择上会按 7 个维度打分——任务匹配度占 30%、输出质量占 20%、可控性 15%、可靠性 15%、成本效率 10%、延迟 5%、连贯性 5%——然后留下完整的决策日志。它还设了质量闸门:合成前有一道校验,挡住违反交付承诺的渲染;有一个 6 维的"PPT 风险"评分,专门防止做出来的东西沦为会动的幻灯片;渲染完还要用 ffprobe 抽帧、分析音频做自检,全部通过才放行。

第三层是知识,也就是那 500 多个 skill。 这一层最容易被忽略,却是这个项目真正的重量所在。这些 skill 不是代码,是一份份用 Markdown 写的说明书,教 agent 怎么像一个专业从业者那样使用每个工具:这条流水线的调研阶段该搜什么、脚本怎么分镜、什么样的画面算合格、每个供应商有哪些坑。系统里没有一个传统意义上的编排引擎在调度,agent 本身就是导演,它靠读这些 Markdown 文件来获得专业判断。

价值正在从第一层往第三层沉

把这三层摆在一起,你就能看清一个正在发生的迁移。

第一层的模型,是被商品化得最快的一层。半年前还惊艳的视频模型,今天可能已经被开源平替追上;某家闭源 API 涨价,马上有三家开源的顶上来。模型层的能力在贬值,因为它在被快速复制和拉平。 OpenMontage 干脆把它当成可热插拔的零件,谁强用谁,这本身就是对模型层不再稀缺的一种判断。

第二层的编排有壁垒,但壁垒不算高。流水线骨架、打分逻辑、质量闸门,这些是工程活,做得好需要经验,但可以被研究、被抄、被开源——OpenMontage 自己就把这一层开源了。

真正难被复制的是第三层。500 个 skill 是把人类在视频生产里积累的专业判断,一条条翻译成了机器能读、能执行的知识。 一个剪辑师知道什么镜头接什么镜头才不突兀,一个导演知道纪录片的调研该挖哪些源,一个调色师知道什么画面该压暗——这些经验过去锁在人脑里,现在被写进了 Markdown。这一层的厚度,等于一整个行业的隐性经验被显性化的程度。它不会随着模型换代而贬值,反而会随着使用不断加厚。

这条迁移线,远不止视频一个领域。这一周 GitHub 趋势榜上同时还有 codebase-memory-mcp(给 agent 配持久代码记忆)、各种把 API 一键变成 MCP 服务的工具,它们和 OpenMontage 指向的是同一件事:当模型变成水电一样的基础设施,差异化就只能往上走,走到编排,再走到把领域知识喂给 agent 的那一层。 谁掌握把专业经验写成 skill 的能力,谁就握住了那段最难被抄走的价值。

一个能带走的判断工具:AI 能力三层栈

把上面的观察压缩成一个可复用的框架。下次你看到一个 AI 产品、或者自己要做一个 AI 项目,用这三个问题给它定位,基本就能判断它的价值落在哪一层、护城河有多深。

问题一:它的核心能力,换个模型还在不在? 如果把底层模型换成另一家同级别的,产品价值基本不变,说明它的价值不在模型层,这是好事——它没把命押在一个会贬值的东西上。如果一换模型就垮,它本质上是在替某个模型做分发,壁垒在别人手里。

问题二:它有没有把一条完整的工作流接管下来? 只做单点(出一张图、出一段视频、改一段文案)的工具,替用户省的是某一道工序的时间;把"调研到交付"整条链路接管的系统,替用户省的是协调全程的心智负担。后者的定价权和黏性是前者的好几个量级,因为用户离开它的迁移成本完全不同。

问题三:它把多少领域经验显性化成了机器可读的知识? 这是最深、也最容易被低估的一层。一个产品沉淀了多少 skill、多少 playbook、多少把老师傅的判断翻译成 agent 能执行的规则,直接决定了它有多难被复制。这一层不靠融资烧出来,靠时间和领域积累长出来。

三个问题对应三层:模型层看可替换性,编排层看工作流的完整度,知识层看经验的显性化程度。价值正在沿着这条线往下沉,越往下,越难抢。

写在最后

OpenMontage 自己也未必是终局。它用的 AGPL 协议偏严格,质量闸门在复杂题材上能不能真挡住翻车还要看实战,500 个 skill 的厚度也还在早期。但它把一件事演示得很清楚:当生成模型变成谁都能调的零件,做视频的功夫就全压到了怎么编排、以及把多少导演的经验写成了 agent 读得懂的说明书上。

对做内容、做工具、做 agent 应用的人,这条迁移线值得记在心里。下一波拉开差距的,大概不会是谁家又接了个更强的模型,而是谁更早开始,把自己脑子里那些说不清道不明的专业判断,一条一条写下来,交给机器去执行。模型在变成基础设施的同一时刻,经验正在变成新的资产。

【声明】内容源于网络

AI Reading Hub

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

内容 284

粉丝 0

AI Reading Hub All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

总阅读702

粉丝0

内容284