大数跨境
0
0

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持 新智元
2025-09-04
6

视频编码器赋能大模型压缩:LLM.265突破AI算力瓶颈

研究团队发现,现成视频编解码硬件可高效压缩大模型张量,显著降低内存与通信开销,相关成果已入选MICRO-2025

随着大模型参数规模持续增长,GPU内存容量与互联带宽已成为制约训练与推理效率的核心瓶颈。在此背景下,压缩技术成为缓解系统压力的关键手段。来自杜克大学、卡耐基梅隆大学和香港科技大学的研究团队提出LLM.265,首次系统性验证了视频编码器在大模型张量压缩中的高效性。

该研究发现,原本用于8K视频播放的现成视频编解码硬件,能够高效压缩AI模型中的权重、激活、KV缓存、梯度等多种张量,压缩效率甚至超越许多专为AI设计的方案。该成果已被计算机体系结构顶会MICRO-2025接收,将于今年10月在首尔展示。

论文链接:https://arxiv.org/abs/2407.00467

代码链接:https://github.com/Entropy-xcy/llm.265

视频编码器为何适用于张量压缩?

视频编解码器历经数十年优化,在高压缩比下仍能保持视觉质量,其核心技术如正交变换、帧间预测与残差编码,恰好契合大模型张量的压缩需求。

正交编码均摊离群值压力

大模型张量常呈现“正态主体+离群值”的分布特征,传统量化方法难以兼顾动态范围与精度。LLM.265利用视频编码中的DCT(离散余弦变换),将离群值能量分散至邻近系数,使分布更规整,显著降低编码复杂度与存储开销。

帧间预测+残差编码提升压缩率

视频编码的核心在于“预测而非存储”。LLM.265将张量中的轴向分布结构视为可预测的“边缘”,先生成预测轮廓,再仅编码真实值与预测之间的低能量残差。结合正交变换与量化,进一步降低信息熵,大幅减少传输与存储比特数。

实验结果:压缩效率显著提升

实验表明,LLM.265在推理与训练、单卡与分布式场景中均表现优异:

  • 权重压缩实现2.5bit/参数,性能与4bit量化相当,接近全精度模型;
  • 训练通信量从3.5bit/参数降至1.4bit,通信开销减少约2.5倍,收敛速度超越现有最先进方法。

对未来AI加速器设计的启示

用计算换数据更划算
随着模型规模扩大,通信与内存瓶颈日益突出。视频编码模块在GPU中占比不足1%,集成更多编码单元即可显著提升能效,成本低、收益高。

有损压缩释放更高自由度
传统研究追求无损压缩,理论压缩率上限低。LLM.265证明,在可接受精度损失下,有损压缩可实现更高压缩率,且支持灵活切换无损模式。

通用与专用的平衡路径
未来可探索两条路线:一是将视频编码器专用化为张量编码器,去除冗余模块;二是将张量压缩功能融入通用视频编码器,实现多场景共享,提升硬件利用率。

LLM.265揭示了体系结构发展的历史回响:30年前视频编解码是体系结构的“杀手级应用”,如今大模型加速器接棒。借鉴成熟技术经验,或将加速下一代AI芯片的创新突破。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14597
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读75.1k
粉丝0
内容14.6k