还在手动剪视频？HeyGen把200美元的视频能力开源了，Codex一句话就能跑起来！

萝卜AI笔记

2026-05-13

导读：神器啊~

大家好，我是你们的萝卜哥～

最近 X 上有一个项目相当火爆，就是 HeyGen 开源的 HyperFrames 项目，可以一句话就能生成画质精美的视频，在这个 AI 视频大模型 API 昂贵的时代，有点特立独行了。

尤其是软件演示视频，知识介绍类视频，通过单纯的 AI 视频可能还没有办法达到想要的效果。

以前我们只能苦哈哈地手动录屏、剪辑，还得求爷爷告奶奶找专业人士帮忙弄配音和 BGM。

现在在 AI 的加持下，这些都越来越简单了。

这个 HyperFrames by HeyGen 插件，直接把我们以前所有的烦恼都搞定了，已经上架到 Codex 桌面版的插件市场了，一键安装，直接免费使用。

下面这个视频就是我一句话生成的，效果不赖吧～

目前这个项目已经收获 17K star 了，妥妥的爆款啊。

下面跟着萝卜哥一起来看看怎么玩，以及怎么能做出更优质的视频吧～

插件安装

这个工具安装起来还是非常简单的，进入到插件市场安装就行。

在搜索框里面输入 Hey，就能看到 HyperFrames by HeyGen 插件，点击右边那个加号安装即可。

我们来看一下这个插件的详细信息

它总共包含了 5 项技能，

• GSAP：Web 动画库的鼻祖

• HyperFrames：负责视频结构和合成规则

• HyperFrames CLI：复杂命令行编排（init、preview、render、tts、transcribe）

• HyperFrames Registry：可复用的组件和动效模板库

• Website to HyperFrames：7 步把任意网站转成视频的 pipeline

从这些技能套件里我们也能看出，大厂对于 AI 视频的创作流程是怎样的，这个流程也是非常值得学习总结的。

基本使用

插件安装好之后，用起来就更简单了，我们新打开一个对话框，输入/，然后找到刚刚安装的技能。

然后只需要输入我们想要生成的视频内容，一句话就可以哦。

比如我这里就是把 HyperFrames 的 GitHub 链接给了它，让它帮我根据链接内容生成一个介绍视频。

很快 Codex 就能帮我们完成这个视频，只不过有一个小缺点，可能是因为我用的是 Windows，它默认使用的 TTS 一直有问题。

所以我又让它换成使用 Edge TTS 来生成配音，这个效果就完全没问题了。

最后我们打开它生成的预览页面，可以看到效果如下。

能直接渲染并导出视频。

然后我们进入到项目目录里能发现，有很多基于该链接页面的截图，其实这就是hyperframes 目的核心逻辑，通过截取 HTML 页面图片并拼接，来达到生成项目介绍视频的目的。

用 Puppeteer 驱动一个无头 Chrome，把 HTML 一帧一帧地截取下来，然后通过 FFmpeg 把这些帧串成视频，再叠上音频轨道。

当然除了把给定的资料换成视频之外，我们还能利用 GPT 强大的搜索和世界知识，把各种已知的知识点生成视频。

比如我这里也是一句话，就生成了一个关于发过大革命的介绍视频，还是很不错的。

我特意查了一下，法国大革命的发生背景确实是三级会议的召开，有点东西啊。

注意点：TTS 工具一定要手动指定一下，它默认的不太好用，用 Edge TTS 足够了。

优化提示词

当然了，工具再厉害，其实也是需要提示词来进行约束和控制的，所谓的一句话就能生成视频，体现的是该工具的底层能力，但是如果我们想要生成更精美的视频，就必须在提示词上下更多的功夫。

所以我这里也贴心的为大家编写了一个提示词 skill，就是说你只需要给出一句话，该 skill 就能丝滑的帮你转化成更优秀的提示词，然后把该提示词给到 HyperFrames 插件，生成的视频要优质很多。

比如下面这个例子，我让改 skill 帮我生成一个介绍关于豆包 APP 收费的视频提示词

来看看它给出的最终可以直接复制的提示词

用 HyperFrames 做一个 30 秒 16:9 横屏科技商业解读视频，主题是“豆包 APP 如果收费，对国内大模型市场的影响”。开场展示一个拟真的豆包 APP 手机界面，中央弹出“豆包 Pro 会员”卡片，但明确这是情景假设，基础聊天仍可作为免费层展示。视频要基于这些事实：豆包是国内头部消费 AI 应用，公开报道显示其用户规模达到 1.5 亿级；豆包与抖音生态深度结合；DeepSeek、Qwen、腾讯元宝等竞品正在争夺消费端用户；国内 AI 市场对价格高度敏感，DeepSeek 曾用低价策略制造竞争压力。

分 5 个场景。0 到 4 秒，展示会员弹窗和“豆包如果收费，会发生什么？”，旁白说“当一个头部 AI 应用开始收费，影响不会只停在价格本身。”4 到 10 秒，展示中国 AI 应用市场地图，用户从豆包流向 DeepSeek、Qwen、腾讯元宝，也有一部分留在豆包会员区，屏幕文字“用户会重新计算值不值”。10 到 16 秒，展示付费漏斗，从“免费使用”进入“高频生成”“智能体”“办公场景”“会员订阅”，屏幕文字“从抢月活到看 ARPU”。16 到 23 秒，展示竞品反击面板，DeepSeek 标注“低价 API”，Qwen 标注“免费消费端”，腾讯标注“社交与办公入口”，屏幕文字“免费和低价会变成反击武器”。23 到 30 秒，展示两条路径“订阅会员”和“生态补贴”合并成“中国大模型商业化分水岭”，结尾屏幕文字“真正的考题：谁能让用户愿意长期付费？”

整体风格拟真、高级、克制，像财经科技频道的数据解读短片。使用手机界面、市场地图、付费漏斗、竞品价格牌、数据卡片和流线动效。所有屏幕文字必须清楚可读，旁白和字幕完全匹配。不要声称豆包已经全面收费，不要编造会员价格，不要使用夸张特效，不要发明没有来源支持的市场数据。

来看看基于这个提示生成的视频，大家觉得是不是要比一句话生成的视频好一些呢。

我个人觉得，虽然现在 AI 工具已经是越来越厉害了，但是必要的约束和提示还是非常有必要的。

我做的这个视频提示词生成技能，就是解决了大家不知道该怎么约束提示词，该怎么优化提示词的痛点，你输入一句话，skill 来帮你搜索相关知识，再从搜索的资料里面提取重点内容放到视频文案当中，要多贴心就有多贴心。

这个 skill 还是老规矩，已经开源到 GitHub 上了，大家可以在后台回复“video”来获取地址哈，然后怎么安装就不用说了吧，相信经常看萝卜哥文章的朋友都知道。

写在最后

技术永远在迭代，工具的门槛只会越来越低。未来淘汰我们的，永远只会是停滞不前的思维。

对我们普通创作者来说，真正卡住我们的，往往不是会不会拍一段电影感画面，而是怎么把一个产品、一个观点、一个知识点，讲清楚，讲顺，讲得有人愿意看完。

真实的视频生产流程，往往是，

先有脚本，再有分镜。

先有结构，再有画面。

先把信息讲明白，再去追求高级感。

所以我越来越觉得，未来很多 AI 工具的核心竞争力，未必只是谁的模型更大、谁的画面更炸。

更关键的是，它能不能把一个普通人的模糊想法，变成一个可执行、可修改、可复用的创作流程。

这也是我为什么要额外做一个视频提示词生成 skill。

因为一句话生成视频很爽，但想让视频更稳、更准、更像一个真正能发布的作品，就需要把那一句话拆成主题、事实、场景、节奏、字幕、旁白、风格和限制条件。

说白了，AI 已经越来越会干活了。

接下来真正拉开差距的，是谁更会把活交代清楚。

未来的视频创作，最主要的是你能不能把一个想法，翻译成 AI 听得懂的导演脚本。

这句话，可能就是这篇文章最值得你记住的地方。

当 AI 工具遍地走的时候，真正稀缺且耀眼的，永远是你脑海中独一无二的洞察力与创造力。

以上就是今天的分享，觉得有帮助，帮请帮一键三连：点赞、转发，再看和留言，你的反馈对我很重要！

【声明】内容源于网络

萝卜AI笔记

做有温度的AI人

内容 168

粉丝 1

萝卜AI笔记做有温度的AI人

总阅读5.8k

粉丝1

内容168