大家好,我是你们的萝卜哥~
最近 X 上有一个项目相当火爆,就是 HeyGen 开源的 HyperFrames 项目,可以一句话就能生成画质精美的视频,在这个 AI 视频大模型 API 昂贵的时代,有点特立独行了。
尤其是软件演示视频,知识介绍类视频,通过单纯的 AI 视频可能还没有办法达到想要的效果。
以前我们只能苦哈哈地手动录屏、剪辑,还得求爷爷告奶奶找专业人士帮忙弄配音和 BGM。
现在在 AI 的加持下,这些都越来越简单了。
这个 HyperFrames by HeyGen 插件,直接把我们以前所有的烦恼都搞定了,已经上架到 Codex 桌面版的插件市场了,一键安装,直接免费使用。
下面这个视频就是我一句话生成的,效果不赖吧~
目前这个项目已经收获 17K star 了,妥妥的爆款啊。
下面跟着萝卜哥一起来看看怎么玩,以及怎么能做出更优质的视频吧~
插件安装
这个工具安装起来还是非常简单的,进入到插件市场安装就行。
在搜索框里面输入 Hey,就能看到 HyperFrames by HeyGen 插件,点击右边那个加号安装即可。
我们来看一下这个插件的详细信息
它总共包含了 5 项技能,
• GSAP:Web 动画库的鼻祖
• HyperFrames:负责视频结构和合成规则
• HyperFrames CLI:复杂命令行编排(init、preview、render、tts、transcribe)
• HyperFrames Registry:可复用的组件和动效模板库
• Website to HyperFrames:7 步把任意网站转成视频的 pipeline
从这些技能套件里我们也能看出,大厂对于 AI 视频的创作流程是怎样的,这个流程也是非常值得学习总结的。
基本使用
插件安装好之后,用起来就更简单了,我们新打开一个对话框,输入/,然后找到刚刚安装的技能。
然后只需要输入我们想要生成的视频内容,一句话就可以哦。
比如我这里就是把 HyperFrames 的 GitHub 链接给了它,让它帮我根据链接内容生成一个介绍视频。
很快 Codex 就能帮我们完成这个视频,只不过有一个小缺点,可能是因为我用的是 Windows,它默认使用的 TTS 一直有问题。
所以我又让它换成使用 Edge TTS 来生成配音,这个效果就完全没问题了。
最后我们打开它生成的预览页面,可以看到效果如下。
能直接渲染并导出视频。
然后我们进入到项目目录里能发现,有很多基于该链接页面的截图,其实这就是hyperframes 目的核心逻辑,通过截取 HTML 页面图片并拼接,来达到生成项目介绍视频的目的。
用 Puppeteer 驱动一个无头 Chrome,把 HTML 一帧一帧地截取下来,然后通过 FFmpeg 把这些帧串成视频,再叠上音频轨道。
当然除了把给定的资料换成视频之外,我们还能利用 GPT 强大的搜索和世界知识,把各种已知的知识点生成视频。
比如我这里也是一句话,就生成了一个关于发过大革命的介绍视频,还是很不错的。
我特意查了一下,法国大革命的发生背景确实是三级会议的召开,有点东西啊。
注意点:TTS 工具一定要手动指定一下,它默认的不太好用,用 Edge TTS 足够了。
优化提示词
当然了,工具再厉害,其实也是需要提示词来进行约束和控制的,所谓的一句话就能生成视频,体现的是该工具的底层能力,但是如果我们想要生成更精美的视频,就必须在提示词上下更多的功夫。
所以我这里也贴心的为大家编写了一个提示词 skill,就是说你只需要给出一句话,该 skill 就能丝滑的帮你转化成更优秀的提示词,然后把该提示词给到 HyperFrames 插件,生成的视频要优质很多。
比如下面这个例子,我让改 skill 帮我生成一个介绍关于豆包 APP 收费的视频提示词
来看看它给出的最终可以直接复制的提示词
用 HyperFrames 做一个 30 秒 16:9 横屏科技商业解读视频,主题是“豆包 APP 如果收费,对国内大模型市场的影响”。开场展示一个拟真的豆包 APP 手机界面,中央弹出“豆包 Pro 会员”卡片,但明确这是情景假设,基础聊天仍可作为免费层展示。视频要基于这些事实:豆包是国内头部消费 AI 应用,公开报道显示其用户规模达到 1.5 亿级;豆包与抖音生态深度结合;DeepSeek、Qwen、腾讯元宝等竞品正在争夺消费端用户;国内 AI 市场对价格高度敏感,DeepSeek 曾用低价策略制造竞争压力。
分 5 个场景。0 到 4 秒,展示会员弹窗和“豆包如果收费,会发生什么?”,旁白说“当一个头部 AI 应用开始收费,影响不会只停在价格本身。”4 到 10 秒,展示中国 AI 应用市场地图,用户从豆包流向 DeepSeek、Qwen、腾讯元宝,也有一部分留在豆包会员区,屏幕文字“用户会重新计算值不值”。10 到 16 秒,展示付费漏斗,从“免费使用”进入“高频生成”“智能体”“办公场景”“会员订阅”,屏幕文字“从抢月活到看 ARPU”。16 到 23 秒,展示竞品反击面板,DeepSeek 标注“低价 API”,Qwen 标注“免费消费端”,腾讯标注“社交与办公入口”,屏幕文字“免费和低价会变成反击武器”。23 到 30 秒,展示两条路径“订阅会员”和“生态补贴”合并成“中国大模型商业化分水岭”,结尾屏幕文字“真正的考题:谁能让用户愿意长期付费?”
整体风格拟真、高级、克制,像财经科技频道的数据解读短片。使用手机界面、市场地图、付费漏斗、竞品价格牌、数据卡片和流线动效。所有屏幕文字必须清楚可读,旁白和字幕完全匹配。不要声称豆包已经全面收费,不要编造会员价格,不要使用夸张特效,不要发明没有来源支持的市场数据。
来看看基于这个提示生成的视频,大家觉得是不是要比一句话生成的视频好一些呢。
我个人觉得,虽然现在 AI 工具已经是越来越厉害了,但是必要的约束和提示还是非常有必要的。
我做的这个视频提示词生成技能,就是解决了大家不知道该怎么约束提示词,该怎么优化提示词的痛点,你输入一句话,skill 来帮你搜索相关知识,再从搜索的资料里面提取重点内容放到视频文案当中,要多贴心就有多贴心。
这个 skill 还是老规矩,已经开源到 GitHub 上了,大家可以在后台回复“video”来获取地址哈,然后怎么安装就不用说了吧,相信经常看萝卜哥文章的朋友都知道。
写在最后
技术永远在迭代,工具的门槛只会越来越低。未来淘汰我们的,永远只会是停滞不前的思维。
对我们普通创作者来说,真正卡住我们的,往往不是会不会拍一段电影感画面,而是怎么把一个产品、一个观点、一个知识点,讲清楚,讲顺,讲得有人愿意看完。
真实的视频生产流程,往往是,
先有脚本,再有分镜。
先有结构,再有画面。
先把信息讲明白,再去追求高级感。
所以我越来越觉得,未来很多 AI 工具的核心竞争力,未必只是谁的模型更大、谁的画面更炸。
更关键的是,它能不能把一个普通人的模糊想法,变成一个可执行、可修改、可复用的创作流程。
这也是我为什么要额外做一个视频提示词生成 skill。
因为一句话生成视频很爽,但想让视频更稳、更准、更像一个真正能发布的作品,就需要把那一句话拆成主题、事实、场景、节奏、字幕、旁白、风格和限制条件。
说白了,AI 已经越来越会干活了。
接下来真正拉开差距的,是谁更会把活交代清楚。
未来的视频创作,最主要的是你能不能把一个想法,翻译成 AI 听得懂的导演脚本。
这句话,可能就是这篇文章最值得你记住的地方。
当 AI 工具遍地走的时候,真正稀缺且耀眼的,永远是你脑海中独一无二的洞察力与创造力。
以上就是今天的分享,觉得有帮助,帮请帮一键三连:点赞、转发,再看和留言,你的反馈对我很重要!

