MIT最新研究：AI记性不好的问题，被三角函数解决了- 大数跨境

首页

MIT最新研究：AI记性不好的问题，被三角函数解决了

AIGC 深一度

2026-04-16

导读：MIT最新研究：AI记性不好的问题，被三角函数解决了

长推理是大模型的能力突破点，但也是显存的噩梦。

生成几万token的思维链，KV缓存跟着线性膨胀，显存很快就爆了。主流的KV压缩方法依赖最近的query来判断哪些token重要，但问题是——query随着位置在旋转，只有最近的几个能用，很多重要的token被误删了。

MIT、英伟达、浙大联合发表的这篇TriAttention，换了个思路：不用旋转后的query去猜，而是用旋转前的Q/K中心来预测注意力模式。

核心发现是，在RoPE旋转之前，Q和K向量高度集中在某些固定中心附近。这个"集中"是稳定的，不受位置和内容影响。把中心代入RoPE公式，注意力logit就变成了一个关于Q-K距离的三角函数级数。

这意味着，只需要知道Q/K的中心，就能预测未来query会关注哪些位置的key。

实验效果很扎实：在AIME25上，TriAttention匹配全量注意力的准确率，同时吞吐量提升2.5倍，KV内存减少10.7倍。而对比方法R-KV在相同效率下只有一半准确率。

▲ TriAttention vs 全量注意力 vs R-KV 的性能对比

为什么现有方法不够好

先说背景。RoPE是现在主流的位置编码方式，它把位置信息编码成向量旋转。每个频率带以不同速率旋转，频率越低转得越慢。

问题来了。现有的KV压缩方法都在"旋转后"的空间估计重要性。但query随着位置在转，只有最近的query方向是对的，稍远一点的query方向已经转偏了。

用这些旋转后的query去估计重要性，相当于用一个小窗口去观察。重要的key可能在这个窗口外，直接被漏掉。对retrieval head来说尤其致命——相关token可能沉睡很久才被需要，但在那之前就被误删了。

论文做了个实验：增加观察窗口大小对性能帮助不大，最优窗口只有约25个query，对长文本来说杯水车薪。

一个有趣的发现：Q/K集中

作者转而研究"旋转前"的空间，发现了一个有意思的现象。

在RoPE旋转之前，Q和K向量在大多数attention head中都高度集中在某些非零中心附近。这个集中程度用Mean Resultant Length R来衡量，R接近1表示完美集中，R接近0表示均匀分散。

实验显示，在Qwen3-8B的所有head中，绝大多数R值都接近1.0。而且这个集中是稳定的——不同位置、不同输入内容，中心都差不多。

▲ Q/K集中现象：(A)RoPE前高度集中 (B)RoPE后分散 (C)集中度分布 (D)注意力重建

为什么稳定？因为旋转前的向量不受位置编码影响，这种稳定性是内在的。

三角函数级数

当Q/K高度集中时，可以近似用中心来代表。代入RoPE的注意力公式，logit就变成了一个只依赖Q-K距离的三角函数级数：

logit(Δ) ≈ Σ ||q̄f|| ||k̄f|| cos(ωf Δ + φf)

其中Δ是Q-K距离，q̄和k̄是中心，ω是旋转频率，φ是相位差。

这个级数描述了一条"注意力-距离曲线"。不同的中心会产生不同的曲线——有的在近距离有峰值（局部注意力），有的在远距离有峰值（attention sink）。

关键是，这条曲线可以从中心预测出来。论文在Qwen3-8B上测试，用三角级数重建实际注意力模式，平均相关系数超过0.5，很多head达到0.6-0.9。

▲ 三个模型上注意力重建的Pearson相关系数分布，均值都在0.5以上

TriAttention方法

基于这个发现，TriAttention设计了一个评分函数来评估key的重要性。

首先是三角级数分数，用Q中心作为未来query的代理，计算每个key在不同距离下的预期注意力：

Strig(k, Δ) = Σ ||E[qf]|| ||kf|| cos(ωf Δ + φf)

其次是范数分数，作为补充信号。因为三角级数假设Q/K完全集中在中心，但实际有波动。范数分数用(1-R)加权，R是集中度——R高时三角级数可靠，范数贡献小；R低时范数贡献大。

最终分数是两者相加。

▲ TriAttention方法概览：离线校准 → 评分 → 剪枝

实现上，每生成128个token做一次剪枝，评分并保留top-B的key。对GQA（多个query head共享一个KV head），先在每个head内归一化分数，再取最大值聚合。

实验结果

在数学推理基准上，TriAttention显著优于现有方法。

AIME25（32K生成）：TriAttention达到32.9%准确率，R-KV只有17.5%。相同准确率下，TriAttention比全量注意力吞吐量高2.5倍，KV内存减少10.7倍。

MATH 500：只用1024个token的KV预算，TriAttention达到56.0%，接近全量注意力的69.6%。

更有意思的是递归状态记忆测试。用深度优先搜索模拟递归调用，测试模型在多深的递归中还能保持状态。结果TriAttention在深度16之前和全量注意力表现相当，而R-KV在深度16开始断崖式下跌。

▲ MATH500、AIME24、AIME25上的详细性能对比

意义

这篇论文的价值在于找到了一个更本质的信号来源。

之前的KV压缩方法在"现象层"打转——观察最近的注意力分数，试图外推。但RoPE旋转让这个外推变得不可靠。

TriAttention深入到"机制层"——RoPE是怎么把位置信息编码进去的，Q/K在这个编码下的分布特征是什么。从这个角度出发，找到了可以用三角级数预测注意力模式的规律。

对于实际应用，这意味着消费级显卡也能跑长推理了。论文提到，在单张消费级GPU上部署OpenClaw，原本会OOM的场景现在可以正常运行。

局限与展望

方法依赖Q/K的集中度。虽然大多数head集中度高，但少数head集中度低，这时三角级数预测不准，范数分数成为主要信号。

另外，论文主要测试了数学推理任务，在其他类型的长推理任务上效果如何还需要验证。

但这个思路——从RoPE的数学结构出发，寻找可预测的模式——对未来的KV压缩研究应该有启发。

模型"认同"了，但没学会：诊断大语言模型中的表面顺从现象

ICLR 2026 ：最强模型也是最差队友

AI推理的真相：为什么它错得那么"像"是对的

循环推理不爆显存？微软新架构YOCO-U：快10倍、内存仅增5%

【声明】内容源于网络

AIGC 深一度

专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

内容 571

粉丝 0

AIGC 深一度专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

总阅读3.1k

粉丝0

内容571