>

效果炸裂！Controlnet作者新作FramePack颠覆视频生成编码，6G显存即可完成单图到60秒视频生成。

>

0

0



效果炸裂！Controlnet作者新作FramePack颠覆视频生成编码，6G显存即可完成单图到60秒视频生成。

效果炸裂！Controlnet作者新作FramePack颠覆视频生成编码，6G显存即可完成单图到60秒视频生成。

AIGC Studio

2025-04-17

2

导读：近日，Controlnet作者又提出了一项效果炸裂的工作FramePack，它是一个预测下一帧（下一帧部分）的

近日，Controlnet作者又提出了一项效果炸裂的工作FramePack，它是一个预测下一帧（下一帧部分）的神经网络结构，可以逐步生成视频。FramePack 将输入上下文压缩为恒定长度，从而使生成工作负载不受视频长度影响。即使在笔记本电脑 GPU 上，也能使用 13B 模型处理海量帧。可以使用更大的批量大小进行训练，类似于图像扩散训练的批量大小。

效果展示

图像到 5 秒（30fps，150 帧）

所有结果均由配备 13B HY 显卡的 RTX 3060 6GB 笔记本电脑计算得出。

图像到 60 秒（30fps，1800 帧）

所有结果均由配备 13B HY 显卡的 6GB RTX 3060 笔记本电脑计算得出。

FramePack特点总结如下：

使用 6GB 笔记本电脑 GPU 内存，通过 13B 模型以全 fps-30 扩散数千帧。
在单个 8xA100/H100 节点上以批次大小 64 对 13B 视频模型进行微调，以用于个人/实验室实验。
个人 RTX 4090 的生成速度为 2.5 秒/帧（未优化）或 1.5 秒/帧（teacache）。
没有时间步长蒸馏。
虽然是视频扩散，但感觉像图像扩散。

5秒了解FramePack

下一帧（或下一帧部分）预测模型如下所示：

因此我们有许多输入帧并希望扩散一些新帧。

作者的想法是，可以将输入帧编码为某些 GPU 布局，如下所示：

该图表显示了逻辑GPU 内存布局-帧图像未拼接。

或者说每个输入帧的上下文长度。

为了实现这一点，每个帧都使用不同的修补内核进行编码。

例如，在HunyuanVideo中，如果使用（1,2,2）修补内核，则480p帧可能有1536个标记。

然后，如果改为（2, 4, 4）修补内核，一帧就是192个token。

通过这种方式可以改变每一帧的上下文长度。

“更重要”的帧被赋予了更多的 GPU 资源（上下文长度）——在这个例子中，F0 是最重要的，因为它是距离“下一帧预测”目标最近的帧。

对于流式传输来说，这是 O(1) 计算复杂度 —— 是的，一个常数，甚至不是 O(nlogn) 或 O(n)。

但是等等，如果……

上述想法是一个非常简短的概念 - 可以提出许多问题，例如：

如果框架的重要性不遵循这个简单的模式会怎样？

如果我想要不同的压缩率怎么办？

如果我想要将图像转换为视频，第一帧不是最重要的吗？

如果我有一些用户框架并且我希望这些框架更重要，该怎么办？

...

太棒了 - 事实上这些是FramePack Scheduling，就像这些：

因此可以获得不同的压缩模式。

人们甚至可以使起始帧同等重要，这样图像到视频的转换会更加顺利。

所有这些调度都是 O(1)。

我们在论文中对很多调度进行了详细的评估！

防漂移采样

漂移是任何下一步预测模型的常见问题。

漂移是指随着视频变长，质量下降的情况。

有时这个问题也被称为错误累积或暴露偏差。

举个例子，你可以找一个任意的图像转视频模型，尝试反复使用最后生成的帧作为输入来生成长视频。重复5、6次后，结果很快就会变得一团糟，重复10次左右后，一切都会严重恶化。

另请参阅我们的论文，其中介绍了一些现有方法的实验，例如历史噪声增强、特殊 cfg 引导、滚动扩散时间步长等。我们发现，要从根本上解决漂移问题，需要打破因果关系，并使采样双向化。

考虑以下采样方法：

（阴影方块是每次流推理中生成的帧）

请注意，只有“香草采样”才是因果关系。

“防漂移采样”和“倒置防漂移采样”都是双向的。

“反向抗漂移采样”非常重要。这种方法是唯一一个在所有推理过程中始终将第一帧视为近似目标的方法。这种方法非常适合图像到视频的转换。

相关链接

论文：http://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
主页：https://lllyasviel.github.io/frame_pack_gitpage/
代码：https://github.com/lllyasviel/FramePack

在左侧上传图像并写下提示。

右侧是生成的视频和潜在预览。

因为这是一个下一帧片段预测模型，所以生成的视频会越来越长。

你将看到每个部分的进度条和下一部分的潜在预览。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

【声明】内容源于网络

0

0

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

内容 876

粉丝 0

AIGC Studio 一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

总阅读44

粉丝0

内容876