一张图讲清楚Flash Attention 4- 大数跨境

AI不止算法

2026-04-01

导读：如封面图，结束。FA4或成手搓FlashAttention为代表的融合算子的绝唱

结束。

看到太多文章直接机翻好啰嗦，让我来用几句话讲清楚FA4

这句话里面基本包含了FA4 forward pass的所有信息，让我们对着下图来逐一拆解并理解一下FA4的核心优化地方就行，你们手里不会真的有Blackwell吧？

序号1：每个CTA own两个Q block和O block，为了基于pingpong实现tensorcore overlap softmax才这样搞的，如序号2，在对一个CTA作softmax的同时对另一个CTA作tensorcore gemm

序号2：理论上GEMM的耗时是softmax的2倍，因此用两个tensorcore mma去overlap一个softmax

序号3：提出使用多项式逼近来实现一部分softmax，另一部分依然保留用MUFU指数运算单元，旨在多一个选项加速softmax

序号4：Blackwell特有属性，用tensor memory存储gemm的accumulater，减少寄存器压力，且解除与epilogue的依赖。

最后，预测一下harness engineering时代，FA5应该完全由harness engineering完成了吧，FA4或成手搓FlashAttention为代表的融合算子的绝唱。。

过往FlashAttention相关文章，见以下

【声明】内容源于网络

AI不止算法

AI-HPC/AI工程/AI推理加速/AI算子开发的技术分享和入门转行学习的全套解决方案提供

内容 104

粉丝 0

AI不止算法 AI-HPC/AI工程/AI推理加速/AI算子开发的技术分享和入门转行学习的全套解决方案提供

总阅读404

粉丝0

内容104