关键词:大语言模型、MXFP4格式、训练后量化、块旋转量化、低精度量化、模型部署
-
Block Rotation is All You Need for MXFP4 Quantization -
https://arxiv.org/pdf/2511.04214 -
3000 字,阅读 10 分钟,播客 19 分钟
-
端侧 NPU 的 LLM 测试时计算扩展:硬件感知块量化与 LUT 优化实现 19.0×GEMM与 2.2×Softmax 加速 -
为 1B/3B LLM 实现近全精度与 3 倍推理加速方案 Tequila:突破死区陷阱的无陷阱三元量化 -
W4A8 GEMM实现LLM 4.9倍加速!LiquidGEMM让反量化、权重加载和矩阵乘流水重叠,较TRT-LLM提升1.6倍
大语言模型(LLMs)的规模化带来高昂的存储与计算成本,训练后量化(PTQ)是高效部署的关键方案,但 W4A4(4 位权重+4 位激活)量化的准确性仍存挑战。
新兴的 MXFP4 格式具备广泛软硬件支持,适配长尾分布且兼容低精度训练与推理,却缺乏针对性 PTQ 方法指导。
本文构建了 MXFP4 格式的 W4A4 量化基准,系统评估三类 PTQ 方法后发现,GPTQ 表现稳定,而主流旋转基方法因与 MXFP4 的 PoT(2 的幂)块缩放机制存在本质冲突,导致性能大幅下降。冲突根源在于全局旋转会放大常规块的小值,而 MXFP4 对大值的重构能力有限,进而累积量化误差。
为此,本文提出块旋转量化(BRQ)策略,在 MXFP4 块内独立执行旋转,既保留离群值抑制效果,又避免跨块误差传播。
实验表明,BRQ 在 LLaMA、Mistral、Qwen 等多尺度模型上显著提升量化精度,且推理延迟较全局旋转方法降低 40%,为低精度浮点硬件上的 LLM 部署提供了实用方案与理论支撑。
关键问题
问题1:MXFP4与全局旋转的冲突是否存在格式或模型特异性?
论文指出全局旋转基方法与 MXFP4 的 PoT 块缩放机制存在本质冲突,进而导致量化性能暴跌,该结论是否仅局限于 MXFP4 格式?换成 FP4 等其他低精度浮点格式时,这类冲突是否会缓解或消失?此外,该冲突在小参数量 LLM 与超大规模 LLM 上的表现是否一致,是否存在模型参数量阈值影响冲突的强弱程度?
该冲突存在显著格式特异性,模型特异性则体现在冲突强弱与模型规模、架构相关。
从格式来看,冲突根源是MXFP4独特的PoT块缩放机制,其对块内数值的重构依赖2的幂次量化规则,而FP4等其他低精度浮点格式无此严格的块级PoT约束,更多是全局或灵活的量化映射,全局旋转放大的数值可通过格式自身的数值适配能力部分抵消,因此换成这类格式后冲突会明显缓解。
从模型来看,冲突存在参数量阈值差异,小参数量LLM的参数分布更集中、离群值少,全局旋转对数值的放大效应有限,冲突较弱;而LLaMA、Mistral等中大规模模型参数长尾分布显著,离群值更多,全局旋转会急剧放大跨块数值差异,与MXFP4的重构短板形成强冲突,且参数量越大,该冲突越突出,不存在全尺度模型统一的冲突强度。
问题2:BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾?
论文提出的块旋转量化(BRQ)通过块内独立旋转解决误差传播问题,但其块大小的设定未明确核心权衡点。当块大小缩小时,虽可能进一步抑制离群值,但会不会急剧增加硬件调度与计算的额外开销?而块增大时,是否会逼近全局旋转的弊端,导致精度回升受限?这种精度与开销的矛盾是否存在最优解,且该最优解能否适配不同架构的 LLM?
这种矛盾并非不可调和,而是存在适配不同场景的动态权衡最优解,且可通过结合模型与硬件特性实现平衡。
-
当块大小缩小时,虽能更精细地抑制局部离群值,进一步提升量化精度,但硬件需频繁处理小块数据,调度开销会增加,不过论文中BRQ的推理延迟已较全局旋转降低40%,且可通过硬件层面的并行调度优化抵消小块带来的额外开销,不会出现开销急剧飙升的情况。 -
当块大小增大时,虽会拉近与全局旋转的距离,但因BRQ始终保持块内独立旋转,避免了跨块误差传播,其精度仍显著优于全局旋转,且此时硬件调度效率提升,计算开销降低。
此外,该最优解可适配不同架构LLM,比如针对Qwen这类架构更紧凑的模型,可选用稍大的块平衡开销;针对Mistral这类推理对精度敏感的模型,可选用小块保障性能,实现精度与开销的动态适配。
本文目录
-
关键问题 -
问题1:MXFP4与全局旋转的冲突是否存在格式或模型特异性? -
问题2:BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾? -
本文目录 -
一、研究背景与核心问题 -
二、PTQ 方法分类(针对 W4A4 量化) -
三、MXFP4 量化基准测试与关键发现 -
1. 实验设置 -
2. 基准测试核心结论 -
四、旋转与 MXFP4 不兼容的根源分析 -
五、解决方案:块旋转量化(BRQ) -
1. 核心设计 -
2. BRQ 的优势 -
六、BRQ 实验验证 -
1. 性能提升(对比现有方法) -
2. 效率优势(预填充延迟) -
3. 旋转维度适配性 -
七、结论与未来工作 -
1. 核心贡献 -
2. 未来方向 -
八、附录关键补充
一、研究背景与核心问题
-
大模型量化需求:大语言模型(LLMs)规模激增导致内存、计算成本过高,训练后量化(PTQ)是高效部署的关键方案,但W4A4(4 位权重+4 位激活)量化精度仍是挑战,尤其对 LLaMA-3.2 1B/3B 等模型, naive 4 位量化性能损失严重。 -
MXFP4 格式的兴起:MXFP4 是 Open Compute Project(OCP)提出的新型 FP4 格式,支持 NVIDIA RTX 5090/B200、AMD Ryzen AI MAX+395 等硬件,相比 INT4 更适配长尾分布、动态范围更广,还支持低精度训练,且 OpenAI 的 gpt-oss 模型已原生支持,是未来低精度格式核心方向。 -
核心矛盾:现有 PTQ 方法多为 INT4 设计,在 MXFP4 上适用性不明;尤其旋转类方法(SOTA INT4 量化的核心)与 MXFP4 严重不兼容,导致性能崩溃,需解决该兼容性问题并建立 MXFP4 的 W4A4 量化基准。
二、PTQ 方法分类(针对 W4A4 量化)
论文将现有 PTQ 方法分为三类,明确各类型原理与代表方法:
|
|
|
|
|---|---|---|
|
|
|
- BoA:融入注意力感知海森矩阵; - RSQ:基于 token 级加权补偿 |
|
|
|
- QuaRot:用旋转变换将离群值分散到小幅度通道; - QuIP#:随机哈达玛变换降低通道相关性 |
|
|
|
- SpinQuant:优化旋转矩阵以分散权重离群值; - KurTail:基于峰度的旋转抑制激活离群值 |
三、MXFP4 量化基准测试与关键发现
1. 实验设置
-
硬件与工具:NVIDIA A800 GPU,基于 Microsoft/microxcaling 仓库模拟 MXFP4 量化。 -
测试模型:覆盖多尺度/架构 LLM——LLaMA-2 7B/13B、LLaMA-3 8B、LLaMA-3.2 1B/3B、Mistral-7B、Qwen2.5 1.5B/3B/7B。 -
评估指标:语言建模质量用 WikiText2 的困惑度(PPL),下游任务用 5 个零样本准确率(PIQA、WinoGrande、OpenBookQA、ARC-Easy、ARC-Challenge)。 -
对比方法:RTN(基线)、BINT4(INT4 块量化基线)、GPTQ、SmoothQuant、QuaRot(含 QuaRot+GPTQ)、OmniQuant、SpinQuant。
2. 基准测试核心结论
-
MXFP4 原生量化性能差:MXFP4 的 RTN 量化比 FP16 和 BINT4 均有显著精度损失(如 LLaMA-2 7B:MXFP4 RTN 的 PPL=7.08/Avg=57.26,BINT4 为 5.94/61.30,FP16 为 5.47/62.59)。 -
补偿型方法最稳定:GPTQ 在 MXFP4 上表现最优,部分模型超 BINT4(如 LLaMA-3.2 1B:GPTQ 的 PPL=13.35/Avg=48.52,BINT4 为 13.56/48.36)。 -
旋转类方法兼容性差: -
纯 QuaRot(随机旋转+RTN)导致性能崩溃(LLaMA-2 7B:PPL 从 7.08 升至 13.09,Avg 从 57.26 降至 50.32); -
即使结合 GPTQ(QuaRot+),提升仍有限; -
SpinQuant(优化旋转矩阵)虽缓解部分问题,但仍不及 GPTQ(如 Mistral-7B:SpinQuant 的 Avg=63.79,GPTQ 为 63.34,差距微小)。 -
FP4 与 INT4 的差异:无旋转时,BFP4/MXFP4(FP4 类)性能优于 BINT4/MXINT4(INT4 类);但旋转会导致 FP4 类性能下降,尤其 MXFP4 受 PoT(2 的幂)缩放影响更显著。
四、旋转与 MXFP4 不兼容的根源分析
论文首次深入剖析该问题,核心矛盾源于MXFP4 的 PoT 块缩放机制与全局旋转的能量重分布冲突:
-
MXFP4 的局限性:大值恢复能力弱
MXFP4 采用固定块大小(32 通道)的 PoT 共享缩放,对块内大值(离群值)的量化误差随数值增大急剧上升(图 3),常规块(无离群值)量化精度依赖块内数值稳定性。 -
全局旋转的副作用:放大常规块数值
全局旋转通过正交变换将少数通道的离群值能量分散到所有通道,虽降低离群值影响,但不减少总能量,导致原本小值的常规块数值被放大(采样数据显示:旋转后>1.5 的激活占比从 5%升至 11%,图 5)。 -
冲突后果:常规块占比远高于离群块(>99%),放大后的常规块因 MXFP4 的 PoT 缩放误差大,累积误差主导量化损失,最终导致性能崩溃(见下面图 6 显示:旋转后常规块量化误差显著上升)。
五、解决方案:块旋转量化(BRQ)
1. 核心设计
针对 MXFP4 的块结构,提出按块独立旋转:将激活按 MXFP4 块大小(如 32 通道)分割,每个块内执行独立正交旋转,构造块对角旋转矩阵:
(其中 为块大小, 为块数, 为正交矩阵)
2. BRQ 的优势
-
保留离群值抑制能力:块内旋转仍能分散块内离群值能量,避免单一离群值主导量化。 -
控制常规块误差:旋转仅在块内进行,避免跨块放大常规块数值,减少 MXFP4 的 PoT 缩放误差。 -
降低计算复杂度:全局旋转复杂度为 ,BRQ 降至 ( 为输入维度),提升部署效率。
六、BRQ 实验验证
1. 性能提升(对比现有方法)
2. 效率优势(预填充延迟)
在 LLaMA-2 7B 上,BRQ 的延迟开销显著低于 QuaRot(全局旋转):
-
批次 1、序列长度 4096:BRQ 开销 2.53%,QuaRot 为 4.64%; -
批次 8、序列长度 4096:BRQ 开销 1.34%,QuaRot 为 3.82%。
3. 旋转维度适配性
当 BRQ 的旋转维度与 MXFP4 块大小(32)一致时,PPL 最低(图 8),验证了块大小匹配的重要性。
七、结论与未来工作
1. 核心贡献
-
建立首个 MXFP4 的 W4A4 PTQ 基准,系统评估三类 PTQ 方法的适用性。 -
揭示旋转与 MXFP4 不兼容的根源:PoT 块缩放与全局旋转的能量重分布冲突。 -
提出 BRQ 方法,解决兼容性问题,在多模型上实现精度与效率双提升。
2. 未来方向
-
探索更优的 BRQ 旋转矩阵优化方案(如结合更高效的梯度下降)。 -
替换在线快速哈达玛变换,平衡精度与推理延迟。 -
扩展 MXFP4 量化至更大规模模型(如 100B+)与更多任务场景。
八、附录关键补充
-
70B 模型验证:LLaMA-2 70B 上 BRQ 仍优于 QuaRot+,证明大规模模型适用性(表 5)。 -
块尺度变化可视化:全局旋转使 70%常规块尺度上升,BRQ 可缓解 83.3%的尺度膨胀(图 9、10)。 -
详细实验数据:提供各模型在 5 个下游任务的具体准确率(如 LLaMA-3.2 3B 的 ARC-C 任务,BRQ 准确率 40.44%,QuaRot+为 38.48%)。
-
硬件视角下 LLM 推理加速综述(第一篇):LLM 分类、规模演进与趋势、与硬件能力的关联、高效生成式LLMs和各硬件平台量化 -
腾讯AI Lab揭秘LLM量化真相:精确建模量化和精度退化关系,挑战传统观点! -
LLM 量化新篇章,4-bit 权重激活量化几乎无损!FlatQuant 的平坦之道

