
Moonshot AI刚刚在Hugging Face上发布了Kimi Linear技术报告。这个48B参数的模型采用了一种混合线性注意力架构,声称能全面超越传统全注意力机制。
官方数据显示:在100万token的上下文长度下,KV缓存使用量减少75%,解码吞吐量提升6倍。这不是渐进式改进,而是架构层面的突破。

技术核心是Kimi Delta Attention(KDA),基于Gated DeltaNet改进而来。他们采用了3:1的KDA与全局MLA比例,在减少内存占用的同时保持性能。
长上下文任务一直是线性注意力的痛点。Kimi Linear在RULER(128k上下文)基准测试中达到84.3分,同时实现3.98倍加速。对于需要处理长文档的应用,这意味着实际可用的性能提升。

模型已开源,包括基础版和指令调优版。部署相对简单,支持vLLM集成。代码示例显示安装过程直接,与标准Hugging Face流程基本一致。
社区反应两极。有人称之为"解决了最大的扩展瓶颈",也有人质疑线性注意力在处理长文本中间部分信息的能力。技术报告需要更详细的基准测试数据来支撑这些性能声明。
有趣的是,刚刚MiniMax发布的M2全面回归全注意力的架构,并称全注意力架构才是当前性能最佳,Kimi Linear的路线这就说已经超越全注意力架构,是科技发展太快,还是另有原因,就需要用户进行检验了。
报告地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
关注公众号回复“进群”入群讨论。

