大数跨境

MIT最新研究:AI记性不好的问题,被三角函数解决了

MIT最新研究:AI记性不好的问题,被三角函数解决了 AIGC 深一度
2026-04-16
7
导读:MIT最新研究:AI记性不好的问题,被三角函数解决了

长推理是大模型的能力突破点,但也是显存的噩梦。

生成几万token的思维链,KV缓存跟着线性膨胀,显存很快就爆了。主流的KV压缩方法依赖最近的query来判断哪些token重要,但问题是——query随着位置在旋转,只有最近的几个能用,很多重要的token被误删了。

MIT、英伟达、浙大联合发表的这篇TriAttention,换了个思路:不用旋转后的query去猜,而是用旋转前的Q/K中心来预测注意力模式。

核心发现是,在RoPE旋转之前,Q和K向量高度集中在某些固定中心附近。这个"集中"是稳定的,不受位置和内容影响。把中心代入RoPE公式,注意力logit就变成了一个关于Q-K距离的三角函数级数。

这意味着,只需要知道Q/K的中心,就能预测未来query会关注哪些位置的key。

实验效果很扎实:在AIME25上,TriAttention匹配全量注意力的准确率,同时吞吐量提升2.5倍,KV内存减少10.7倍。而对比方法R-KV在相同效率下只有一半准确率。

▲ TriAttention vs 全量注意力 vs R-KV 的性能对比

为什么现有方法不够好

先说背景。RoPE是现在主流的位置编码方式,它把位置信息编码成向量旋转。每个频率带以不同速率旋转,频率越低转得越慢。

问题来了。现有的KV压缩方法都在"旋转后"的空间估计重要性。但query随着位置在转,只有最近的query方向是对的,稍远一点的query方向已经转偏了。

用这些旋转后的query去估计重要性,相当于用一个小窗口去观察。重要的key可能在这个窗口外,直接被漏掉。对retrieval head来说尤其致命——相关token可能沉睡很久才被需要,但在那之前就被误删了。

论文做了个实验:增加观察窗口大小对性能帮助不大,最优窗口只有约25个query,对长文本来说杯水车薪。

一个有趣的发现:Q/K集中

作者转而研究"旋转前"的空间,发现了一个有意思的现象。

在RoPE旋转之前,Q和K向量在大多数attention head中都高度集中在某些非零中心附近。这个集中程度用Mean Resultant Length R来衡量,R接近1表示完美集中,R接近0表示均匀分散。

实验显示,在Qwen3-8B的所有head中,绝大多数R值都接近1.0。而且这个集中是稳定的——不同位置、不同输入内容,中心都差不多。

▲ Q/K集中现象:(A)RoPE前高度集中 (B)RoPE后分散 (C)集中度分布 (D)注意力重建

为什么稳定?因为旋转前的向量不受位置编码影响,这种稳定性是内在的。

三角函数级数

当Q/K高度集中时,可以近似用中心来代表。代入RoPE的注意力公式,logit就变成了一个只依赖Q-K距离的三角函数级数:

logit(Δ) ≈ Σ ||q̄f|| ||k̄f|| cos(ωf Δ + φf)

其中Δ是Q-K距离,q̄和k̄是中心,ω是旋转频率,φ是相位差。

这个级数描述了一条"注意力-距离曲线"。不同的中心会产生不同的曲线——有的在近距离有峰值(局部注意力),有的在远距离有峰值(attention sink)。

关键是,这条曲线可以从中心预测出来。论文在Qwen3-8B上测试,用三角级数重建实际注意力模式,平均相关系数超过0.5,很多head达到0.6-0.9。

▲ 三个模型上注意力重建的Pearson相关系数分布,均值都在0.5以上

TriAttention方法

基于这个发现,TriAttention设计了一个评分函数来评估key的重要性。

首先是三角级数分数,用Q中心作为未来query的代理,计算每个key在不同距离下的预期注意力:

Strig(k, Δ) = Σ ||E[qf]|| ||kf|| cos(ωf Δ + φf)

其次是范数分数,作为补充信号。因为三角级数假设Q/K完全集中在中心,但实际有波动。范数分数用(1-R)加权,R是集中度——R高时三角级数可靠,范数贡献小;R低时范数贡献大。

最终分数是两者相加。

▲ TriAttention方法概览:离线校准 → 评分 → 剪枝

实现上,每生成128个token做一次剪枝,评分并保留top-B的key。对GQA(多个query head共享一个KV head),先在每个head内归一化分数,再取最大值聚合。

实验结果

在数学推理基准上,TriAttention显著优于现有方法。

AIME25(32K生成):TriAttention达到32.9%准确率,R-KV只有17.5%。相同准确率下,TriAttention比全量注意力吞吐量高2.5倍,KV内存减少10.7倍。

MATH 500:只用1024个token的KV预算,TriAttention达到56.0%,接近全量注意力的69.6%。

更有意思的是递归状态记忆测试。用深度优先搜索模拟递归调用,测试模型在多深的递归中还能保持状态。结果TriAttention在深度16之前和全量注意力表现相当,而R-KV在深度16开始断崖式下跌。

▲ MATH500、AIME24、AIME25上的详细性能对比

意义

这篇论文的价值在于找到了一个更本质的信号来源。

之前的KV压缩方法在"现象层"打转——观察最近的注意力分数,试图外推。但RoPE旋转让这个外推变得不可靠。

TriAttention深入到"机制层"——RoPE是怎么把位置信息编码进去的,Q/K在这个编码下的分布特征是什么。从这个角度出发,找到了可以用三角级数预测注意力模式的规律。

对于实际应用,这意味着消费级显卡也能跑长推理了。论文提到,在单张消费级GPU上部署OpenClaw,原本会OOM的场景现在可以正常运行。

局限与展望

方法依赖Q/K的集中度。虽然大多数head集中度高,但少数head集中度低,这时三角级数预测不准,范数分数成为主要信号。

另外,论文主要测试了数学推理任务,在其他类型的长推理任务上效果如何还需要验证。

但这个思路——从RoPE的数学结构出发,寻找可预测的模式——对未来的KV压缩研究应该有启发。

模型"认同"了,但没学会:诊断大语言模型中的表面顺从现象

ICLR 2026 :最强模型也是最差队友

AI推理的真相:为什么它错得那么"像"是对的

循环推理不爆显存?微软新架构YOCO-U:快10倍、内存仅增5%

【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 571
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读3.1k
粉丝0
内容571