大数跨境
0
0

达摩院NeurIPS'25 Spotlight|FPSAttention 视频生成加速:FP8 量化×稀疏化的训推一体联合优化

达摩院NeurIPS'25  Spotlight|FPSAttention 视频生成加速:FP8 量化×稀疏化的训推一体联合优化 DAMO开发者矩阵
2025-12-08
0
导读:FP8 精度下的 3D Tile-wise 量化、与结构化稀疏的联合优化、兼容 FlashAttention 的原生高效推理、 在 Wan2.1-14B 上达到 4.96× 端到端加速、7.09× 注
作者|张泽宇 阿里巴巴达摩院实习生

引言



随着视频生成模型的快速发展,Diffusion Transformer(DiT)架构已成为视频生成的主流。但生成高清、高时长视频的过程依旧极其耗时,即便是顶尖模型如 Wan2.1-14B,在一张 NVIDIA H20 上生成 5s 视频仍需约 2.5 小时,主要瓶颈来自 3D 注意力机制的巨额计算。


近年来,业界常用的两种加速手段——量化(Quantization)与稀疏化(Sparsity),虽然在推理阶段均能带来显著加速,但将它们直接组合会导致质量严重退化,无法满足实际落地需求。


针对这一痛点,阿里巴巴达摩院与合作团队提出了一种全新的 训推一体加速框架:FPSAttention。


该方法首次实现了:FP8 精度下的 3D Tile-wise 量化、与结构化稀疏的联合优化、兼容 FlashAttention 的原生高效推理、 在 Wan2.1-14B 上达到 4.96× 端到端加速、7.09× 注意力 kernel 加速、零质量损失。


论文链接:https://arxiv.org/abs/2506.04648

项目主页:https://fps.ziplab.co

背景介绍 & 研究动机


当前的视频扩散模型主要瓶颈来自两方面:


  • 迭代式采样需数百个 denoising steps

  • 注意力复杂度随空间 × 时间二次增长,占推理时间 70%+


虽然量化与稀疏可加速推理,但行业现有方法几乎都属于训练后量化(Post-training Quantization) 或推理期稀疏(Inference-only Sparsity),在两个方面存在明显缺陷:


  • 单独使用:加速有限

  • 直接组合:误差叠加导致灾难性质量崩塌(论文图 2)

  • 缺乏联合训练:训推不一致导致 generation drift


为此,需要一种能同时兼容硬件友好、模型稳定性与视觉质量的新框架。


主要贡献


FPSAttention 的核心贡献可以总结为三点:


  • 提出统一的 3D Tile-wise 量化与稀疏策略


    用一个统一的 tile 粒度同时驱动 FP8 量化与稀疏模式,天然与 GPU 的 Tensor Core 计算块对齐,兼顾精度与加速。


  • 引入“去噪步(denoising step)感知”的动态策略


    通过分析扩散过程在不同 step 对误差的敏感度,动态调整量化粒度和稀疏窗口的大小,实现训推一致的泛化能力。


  • 实现原生、硬件友好的高性能 kernel


    基于 Hopper 架构特性与 FlashAttention,开发支持 FP8 × 稀疏 的融合算子,实现理论 FLOPs 减少到真实 wall-clock 的加速。


最终 FPSAttention 在大规模视频模型上实现:


  • 7.09× Attention kernel 加速

  • 4.96× 端到端视频生成加速

  • 几乎无损的生成质量



FPSAttention 核心技术解读


我们从三个关键创新分别拆解 FPSAttention 的设计思路。


一、单一3D Tile-wise量化与稀疏粒度


现有量化粒度包括:


  •  per-token

  •  per-channel

  •  per-group


但它们都与 GPU 的真实计算 tile 不匹配,导致硬件利用率不佳。


FPSAttention 提出:以 3D(T×H×W)Tile 为单位做 FP8 量化与稀疏。


优势:


  • 与 FlashAttention Block 完美对齐

  • 减少 quantization error variance

  • 稀疏 mask 与 quantization tile 对齐后可融合成统一 kernel

  • 并行度更高,显著减少 memory traffic


直观理解是:“用 GPU 最喜欢的形状做量化和稀疏,它就能跑得更快。”



二、去噪步感知的动态调度策略


扩散模型在不同denoising steps对误差的敏感度不同:


  • early steps:噪声大,误差影响小,可粗量化、强稀疏

  • middle steps:模型最敏感,需要高精度、低稀疏

  • late steps:接近收敛,可再次变粗


论文通过分析 Cosine、MSE、SNR(图 5)验证了这一规律。


FPSAttention 把这一规律写为分段调度:


  • coarse → fine → intermediate

  • sparse → dense → medium sparse


这种 “训推一体的步调一致性” 是质量不下降的关键。



三、原生高效 Kernel:FP8 × 稀疏 × FlashAttention 融合


团队在Hopper GPU上基于 Triton手写了新的attention kernel:


支持:


  • FP8 GEMM

  • 稀疏 mask

  • 与 FlashAttention 的 IO-aware 机制融合

  • operation fusion:减少读写和 kernel launch 开销

  • Tensor Core 最大利用率


最终实现 7.09× kernel 加速,而不仅是 FLOPs 层面的“理论加速”。



实验与讨论


模型:Wan2.1(1.3B / 14B)

数据集:高质量 480p 视频

测试集:VBench(16 大项)


速度提升(亮点中亮点)


论文结果(表 1):

  • FP8 单独:1.84×

  • 稀疏单独(STA):5.15×

  • FPSAttention:7.09× kernel 加速

  • 最终端到端:4.96× 短时长视频生成提速(720p)


这是目前已知的视频扩散模型中最强的训推一体加速结果之一。


质量指标


以 PSNR、SSIM、LPIPS 以及 VBench 指标统计:


FPSAttention 的总分 高于 baseline Wan,甚至比部分 baseline 还略有提升,说明结构化稀疏本身拥有一定正则化效应。


论文图 6 展示了视频可视化结果,FPSAttention 与原模型几乎不可区分。



未来方向


基于论文讨论,未来方向包括:


  • 更一般化的 FP8 × 稀疏框架

  • 更极致的 3D tile 结构设计

  • 更智能的动态稀疏策略

  • 与一步扩散、蒸馏类技术结合(可实现进一步 10× 提速)

  • 兼容更多视频模型架构(例如 Hunyuan Video、CogVideoX、MMDiT 等)


FPSAttention也为未来的视频实时生成打下了基础。


结语


FPSAttention 证明了一件事:扩散模型并不是不能被大幅加速,只是缺少能同时兼容“硬件友好 + 量化 + 稀疏 + 训练动态”的方法。这篇工作首次以系统化的方式解决了 FP8 与稀疏联合使用时的质量崩塌问题,构建了真正可落地的视频生成加速框架。


如果说 FlashAttention 改变了注意力的计算方式,那么 FPSAttention 则重新定义了“视频扩散模型应该如何计算”。期待未来更多大规模视频模型采用此框架,实现真正意义上的高效视频生成。


|往期内容回看



图片

图片


【声明】内容源于网络
0
0
DAMO开发者矩阵
内容 57
粉丝 0
DAMO开发者矩阵
总阅读12
粉丝0
内容57