作者|张泽宇 阿里巴巴达摩院实习生
引言
随着视频生成模型的快速发展,Diffusion Transformer(DiT)架构已成为视频生成的主流。但生成高清、高时长视频的过程依旧极其耗时,即便是顶尖模型如 Wan2.1-14B,在一张 NVIDIA H20 上生成 5s 视频仍需约 2.5 小时,主要瓶颈来自 3D 注意力机制的巨额计算。
近年来,业界常用的两种加速手段——量化(Quantization)与稀疏化(Sparsity),虽然在推理阶段均能带来显著加速,但将它们直接组合会导致质量严重退化,无法满足实际落地需求。
针对这一痛点,阿里巴巴达摩院与合作团队提出了一种全新的 训推一体加速框架:FPSAttention。
该方法首次实现了:FP8 精度下的 3D Tile-wise 量化、与结构化稀疏的联合优化、兼容 FlashAttention 的原生高效推理、 在 Wan2.1-14B 上达到 4.96× 端到端加速、7.09× 注意力 kernel 加速、零质量损失。
论文链接:https://arxiv.org/abs/2506.04648
项目主页:https://fps.ziplab.co
背景介绍 & 研究动机
当前的视频扩散模型主要瓶颈来自两方面:
迭代式采样需数百个 denoising steps
注意力复杂度随空间 × 时间二次增长,占推理时间 70%+
虽然量化与稀疏可加速推理,但行业现有方法几乎都属于训练后量化(Post-training Quantization) 或推理期稀疏(Inference-only Sparsity),在两个方面存在明显缺陷:
单独使用:加速有限
直接组合:误差叠加导致灾难性质量崩塌(论文图 2)
缺乏联合训练:训推不一致导致 generation drift
为此,需要一种能同时兼容硬件友好、模型稳定性与视觉质量的新框架。

主要贡献
FPSAttention 的核心贡献可以总结为三点:
提出统一的 3D Tile-wise 量化与稀疏策略
用一个统一的 tile 粒度同时驱动 FP8 量化与稀疏模式,天然与 GPU 的 Tensor Core 计算块对齐,兼顾精度与加速。
引入“去噪步(denoising step)感知”的动态策略
通过分析扩散过程在不同 step 对误差的敏感度,动态调整量化粒度和稀疏窗口的大小,实现训推一致的泛化能力。
实现原生、硬件友好的高性能 kernel
基于 Hopper 架构特性与 FlashAttention,开发支持 FP8 × 稀疏 的融合算子,实现理论 FLOPs 减少到真实 wall-clock 的加速。
最终 FPSAttention 在大规模视频模型上实现:
7.09× Attention kernel 加速
4.96× 端到端视频生成加速
几乎无损的生成质量

FPSAttention 核心技术解读
我们从三个关键创新分别拆解 FPSAttention 的设计思路。
一、单一3D Tile-wise量化与稀疏粒度
现有量化粒度包括:
per-token
per-channel
per-group
但它们都与 GPU 的真实计算 tile 不匹配,导致硬件利用率不佳。
FPSAttention 提出:以 3D(T×H×W)Tile 为单位做 FP8 量化与稀疏。
优势:
与 FlashAttention Block 完美对齐
减少 quantization error variance
稀疏 mask 与 quantization tile 对齐后可融合成统一 kernel
并行度更高,显著减少 memory traffic
直观理解是:“用 GPU 最喜欢的形状做量化和稀疏,它就能跑得更快。”
二、去噪步感知的动态调度策略
扩散模型在不同denoising steps对误差的敏感度不同:
early steps:噪声大,误差影响小,可粗量化、强稀疏
middle steps:模型最敏感,需要高精度、低稀疏
late steps:接近收敛,可再次变粗
论文通过分析 Cosine、MSE、SNR(图 5)验证了这一规律。
FPSAttention 把这一规律写为分段调度:
coarse → fine → intermediate
sparse → dense → medium sparse
这种 “训推一体的步调一致性” 是质量不下降的关键。
三、原生高效 Kernel:FP8 × 稀疏 × FlashAttention 融合
团队在Hopper GPU上基于 Triton手写了新的attention kernel:
支持:
FP8 GEMM
稀疏 mask
与 FlashAttention 的 IO-aware 机制融合
operation fusion:减少读写和 kernel launch 开销
Tensor Core 最大利用率
最终实现 7.09× kernel 加速,而不仅是 FLOPs 层面的“理论加速”。
实验与讨论
模型:Wan2.1(1.3B / 14B)
数据集:高质量 480p 视频
测试集:VBench(16 大项)
速度提升(亮点中亮点)
论文结果(表 1):
FP8 单独:1.84×
稀疏单独(STA):5.15×
FPSAttention:7.09× kernel 加速
最终端到端:4.96× 短时长视频生成提速(720p)
这是目前已知的视频扩散模型中最强的训推一体加速结果之一。
质量指标
以 PSNR、SSIM、LPIPS 以及 VBench 指标统计:
FPSAttention 的总分 高于 baseline Wan,甚至比部分 baseline 还略有提升,说明结构化稀疏本身拥有一定正则化效应。
论文图 6 展示了视频可视化结果,FPSAttention 与原模型几乎不可区分。
未来方向
基于论文讨论,未来方向包括:
更一般化的 FP8 × 稀疏框架
更极致的 3D tile 结构设计
更智能的动态稀疏策略
与一步扩散、蒸馏类技术结合(可实现进一步 10× 提速)
兼容更多视频模型架构(例如 Hunyuan Video、CogVideoX、MMDiT 等)
FPSAttention也为未来的视频实时生成打下了基础。
结语
FPSAttention 证明了一件事:扩散模型并不是不能被大幅加速,只是缺少能同时兼容“硬件友好 + 量化 + 稀疏 + 训练动态”的方法。这篇工作首次以系统化的方式解决了 FP8 与稀疏联合使用时的质量崩塌问题,构建了真正可落地的视频生成加速框架。
如果说 FlashAttention 改变了注意力的计算方式,那么 FPSAttention 则重新定义了“视频扩散模型应该如何计算”。期待未来更多大规模视频模型采用此框架,实现真正意义上的高效视频生成。
|往期内容回看



