首页

AAAI 2026 | 清华全新注意力范式，真正的优雅，是在数学的降维中，保留了全世界的视野

AI前沿速递

2026-04-17

导读：AAAI 2026 | 清华全新注意力范式，真正的优雅，是在数学的降维中，保留了全世界的视野

在视觉 Transformer (ViT) 的世界里，长久以来存在一个被视为“物理定律”的执念：自注意力（Self-Attention）的计算复杂度必然是序列长度的平方。

为了对抗这个沉重的代价，学术界卷出了各种花样：局部窗口（Swin）、稀疏注意力（BiFormer）、或者暴力下采样（PVT）。但这些方法本质上都在做一件事——通过人为施加“外部约束”来牺牲模型容量。

这就好比为了碳排放而给F1充电（潘子有话要说），这显然不是最优解。

很多研究者认为 ViT 必须通过牺牲全局感受野来换取速度，但清华大学的这项研究通过对训练好模型的可视化发现：ViT 根本不需要你帮它裁剪，它自己就在进化出一种高效的结构。

文末更有完整版代码复现技术资料，需要的可以自取哦！

核心结论

👉 这篇论文，本质上做了：
通过数学证明发现 ViT 的注意力矩阵天然就在逼近“块循环结构”（BCCB），并利用 2D 傅里叶变换（DFT）将全局注意力的复杂度从降维打击至，在保持全局视野的同时实现极致效率。

方法拆解

• Stage 1：规律发现（从混沌到秩序）
作者通过定量分析发现，尽管注意力的计算公式是动态的，但收敛后的权重矩阵在空间上具有极强的“循环性”。这意味着，模型在学习过程中自发地倾向于一种准平移不变性的表达。
• Stage 2：数学坍缩（从空域到频域）
既然目标是 BCCB 矩阵，利用循环矩阵可以在傅里叶空间对角化的特性，将原本沉重的矩阵乘法（MatMul）坍缩为频域下的逐元素哈达玛积。这不仅是速度的提升，更是计算范式的转换。

关键技术翻译

• BCCB 投影（Block Circulant Projection）： 把不规则的注意力图“强行平差”成规则的循环阵，像给乱糟糟的毛线球理出了主线。
• 谱域计算（Spectral Computation）： 别在像素点上死磕了，去频率的世界里做乘法，再转回来就是我们要的答案。
• 动态重赋权（Dynamic Re-weighting）： 弥补循环矩阵过于平滑的缺陷，给重点特征加个“聚光灯”。

即插即用代码

这个核心逻辑可以放在任何 Transformer 的 Attention 模块中，尤其是需要处理高分辨率大图的场景：


   
   
   

   
   
   
    

    
    
    
     
     
     
      1
     
     
     
     
     
     
      2
     
     
     
     
     
     
      3
     
     
     
     
     
     
      4
     
     
     
     
     
     
      5
     
     
     
     
     
     
      6
     
     
     
     
     
     
      7
     
     
     
     
     
     
      8
     
     
     
     
     
     
      9
     
     
     
     
     
     
      10
     
     
     
     
     
     
      11
     
     
     
     
     
     
      12
     
     
     
     
     
     
      13
     
     
     
     
     
     
      14
     
     
     
     
     
     
      15
     
     
     
    
    
    


    
    
    
     
     
     import torch.fft
 
def circulant_attention(q, k, v, spatial_shape):
    # q, k, v: [B, H, W, C]
    # 1. 快速傅里叶变换到频域
    q_f = torch.fft.rfft2(q, dim=(1, 2))
    k_f = torch.fft.rfft2(k, dim=(1, 2))
    
    # 2. 频域下的“注意力”计算: 复杂度从 N^2 降至 N log N
    # 等效于空域的循环卷积
    attn_f = q_f * torch.conj(k_f)
    
    # 3. 逆变换并结合 V
    out = torch.fft.irfft2(attn_f, s=spatial_shape)
    return out