>

达摩院NeurIPS'25 Spotlight｜FPSAttention 视频生成加速：FP8 量化×稀疏化的训推一体联合优化

>

0

0



达摩院NeurIPS'25 Spotlight｜FPSAttention 视频生成加速：FP8 量化×稀疏化的训推一体联合优化

达摩院NeurIPS'25 Spotlight｜FPSAttention 视频生成加速：FP8 量化×稀疏化的训推一体联合优化

DAMO开发者矩阵

2025-12-08

0

导读：FP8 精度下的 3D Tile-wise 量化、与结构化稀疏的联合优化、兼容 FlashAttention 的原生高效推理、在 Wan2.1-14B 上达到 4.96× 端到端加速、7.09× 注

作者｜张泽宇阿里巴巴达摩院实习生

引言

随着视频生成模型的快速发展，Diffusion Transformer（DiT）架构已成为视频生成的主流。但生成高清、高时长视频的过程依旧极其耗时，即便是顶尖模型如 Wan2.1-14B，在一张 NVIDIA H20 上生成 5s 视频仍需约 2.5 小时，主要瓶颈来自 3D 注意力机制的巨额计算。

近年来，业界常用的两种加速手段——量化（Quantization）与稀疏化（Sparsity），虽然在推理阶段均能带来显著加速，但将它们直接组合会导致质量严重退化，无法满足实际落地需求。

针对这一痛点，阿里巴巴达摩院与合作团队提出了一种全新的训推一体加速框架：FPSAttention。

该方法首次实现了：FP8 精度下的 3D Tile-wise 量化、与结构化稀疏的联合优化、兼容 FlashAttention 的原生高效推理、在 Wan2.1-14B 上达到 4.96× 端到端加速、7.09× 注意力 kernel 加速、零质量损失。

论文链接：https://arxiv.org/abs/2506.04648

项目主页：https://fps.ziplab.co

背景介绍 & 研究动机

当前的视频扩散模型主要瓶颈来自两方面：

迭代式采样需数百个 denoising steps

注意力复杂度随空间 × 时间二次增长，占推理时间 70%+

虽然量化与稀疏可加速推理，但行业现有方法几乎都属于训练后量化（Post-training Quantization）或推理期稀疏（Inference-only Sparsity），在两个方面存在明显缺陷：

单独使用：加速有限

直接组合：误差叠加导致灾难性质量崩塌（论文图 2）

缺乏联合训练：训推不一致导致 generation drift

为此，需要一种能同时兼容硬件友好、模型稳定性与视觉质量的新框架。

主要贡献

FPSAttention 的核心贡献可以总结为三点：

提出统一的 3D Tile-wise 量化与稀疏策略

用一个统一的 tile 粒度同时驱动 FP8 量化与稀疏模式，天然与 GPU 的 Tensor Core 计算块对齐，兼顾精度与加速。
引入“去噪步（denoising step）感知”的动态策略

通过分析扩散过程在不同 step 对误差的敏感度，动态调整量化粒度和稀疏窗口的大小，实现训推一致的泛化能力。
实现原生、硬件友好的高性能 kernel

基于 Hopper 架构特性与 FlashAttention，开发支持 FP8 × 稀疏的融合算子，实现理论 FLOPs 减少到真实 wall-clock 的加速。

最终 FPSAttention 在大规模视频模型上实现：

7.09× Attention kernel 加速

4.96× 端到端视频生成加速

几乎无损的生成质量

FPSAttention 核心技术解读

我们从三个关键创新分别拆解 FPSAttention 的设计思路。

一、单一3D Tile-wise量化与稀疏粒度

现有量化粒度包括：

per-token

per-channel

per-group

但它们都与 GPU 的真实计算 tile 不匹配，导致硬件利用率不佳。

FPSAttention 提出：以 3D（T×H×W）Tile 为单位做 FP8 量化与稀疏。

优势：

与 FlashAttention Block 完美对齐

减少 quantization error variance
稀疏 mask 与 quantization tile 对齐后可融合成统一 kernel

并行度更高，显著减少 memory traffic

直观理解是：“用 GPU 最喜欢的形状做量化和稀疏，它就能跑得更快。”

二、去噪步感知的动态调度策略

扩散模型在不同denoising steps对误差的敏感度不同：

early steps：噪声大，误差影响小，可粗量化、强稀疏

middle steps：模型最敏感，需要高精度、低稀疏

late steps：接近收敛，可再次变粗

论文通过分析 Cosine、MSE、SNR（图 5）验证了这一规律。

FPSAttention 把这一规律写为分段调度：

coarse → fine → intermediate

sparse → dense → medium sparse

这种 “训推一体的步调一致性” 是质量不下降的关键。

三、原生高效 Kernel：FP8 × 稀疏 × FlashAttention 融合

团队在Hopper GPU上基于 Triton手写了新的attention kernel：

支持：

FP8 GEMM

稀疏 mask

与 FlashAttention 的 IO-aware 机制融合

operation fusion：减少读写和 kernel launch 开销

Tensor Core 最大利用率

最终实现 7.09× kernel 加速，而不仅是 FLOPs 层面的“理论加速”。

实验与讨论

模型：Wan2.1（1.3B / 14B）

数据集：高质量 480p 视频

测试集：VBench（16 大项）

速度提升（亮点中亮点）

论文结果（表 1）：

FP8 单独：1.84×

稀疏单独（STA）：5.15×

FPSAttention：7.09× kernel 加速

最终端到端：4.96× 短时长视频生成提速（720p）

这是目前已知的视频扩散模型中最强的训推一体加速结果之一。

质量指标

以 PSNR、SSIM、LPIPS 以及 VBench 指标统计：

FPSAttention 的总分高于 baseline Wan，甚至比部分 baseline 还略有提升，说明结构化稀疏本身拥有一定正则化效应。

论文图 6 展示了视频可视化结果，FPSAttention 与原模型几乎不可区分。

未来方向

基于论文讨论，未来方向包括：

更一般化的 FP8 × 稀疏框架

更极致的 3D tile 结构设计

更智能的动态稀疏策略

与一步扩散、蒸馏类技术结合（可实现进一步 10× 提速）

兼容更多视频模型架构（例如 Hunyuan Video、CogVideoX、MMDiT 等）

FPSAttention也为未来的视频实时生成打下了基础。

结语

FPSAttention 证明了一件事：扩散模型并不是不能被大幅加速，只是缺少能同时兼容“硬件友好 + 量化 + 稀疏 + 训练动态”的方法。这篇工作首次以系统化的方式解决了 FP8 与稀疏联合使用时的质量崩塌问题，构建了真正可落地的视频生成加速框架。

如果说 FlashAttention 改变了注意力的计算方式，那么 FPSAttention 则重新定义了“视频扩散模型应该如何计算”。期待未来更多大规模视频模型采用此框架，实现真正意义上的高效视频生成。

｜往期内容回看

【声明】内容源于网络

0

0

DAMO开发者矩阵

内容 57

粉丝 0

DAMO开发者矩阵

总阅读12

粉丝0

内容57