大数跨境
0
0

面向 LLM 的 MXFP4 专属 PTQ 方案:BRQ 策略实现跨模型量化精度提升与 40% 推理提速

面向 LLM 的 MXFP4 专属 PTQ 方案:BRQ 策略实现跨模型量化精度提升与 40% 推理提速 NeuralTalk
2025-11-10
5
导读:LLM规模化存高存储与计算成本,但PTQ的W4A4量化准确性低,MXFP4适配长尾分布且软硬件兼容但缺专属PTQ方法。评估显示全局旋转基方法与其实质冲突致性能暴跌,本文提出BRQ策略提升精度,性能较全

关键词:大语言模型、MXFP4格式训练后量化块旋转量化、低精度量化、模型部署

  • Block Rotation is All You Need for MXFP4 Quantization
  • https://arxiv.org/pdf/2511.04214
  • 3000 字,阅读 10 分钟,播客 19 分钟
相关推荐

大语言模型(LLMs)的规模化带来高昂的存储与计算成本,训练后量化(PTQ)是高效部署的关键方案,但 W4A4(4 位权重+4 位激活)量化的准确性仍存挑战。

新兴的 MXFP4 格式具备广泛软硬件支持,适配长尾分布且兼容低精度训练与推理,却缺乏针对性 PTQ 方法指导

本文构建了 MXFP4 格式的 W4A4 量化基准,系统评估三类 PTQ 方法后发现,GPTQ 表现稳定,而主流旋转基方法因与 MXFP4 的 PoT(2 的幂)块缩放机制存在本质冲突,导致性能大幅下降。冲突根源在于全局旋转会放大常规块的小值,而 MXFP4 对大值的重构能力有限,进而累积量化误差。

为此,本文提出块旋转量化(BRQ)策略,在 MXFP4 块内独立执行旋转,既保留离群值抑制效果,又避免跨块误差传播。

图7:块旋转的原理:全局旋转会将离群值分散到所有通道中,导致常规块的尺度增大,并加剧量化误差。块级旋转会在局部重新分配离群值,在减轻离群值影响的同时保持常规块的尺度不变,从而将量化误差降至最低

实验表明,BRQ 在 LLaMA、Mistral、Qwen 等多尺度模型上显著提升量化精度,且推理延迟较全局旋转方法降低 40%,为低精度浮点硬件上的 LLM 部署提供了实用方案与理论支撑。

交流加群请在 NeuralTalk 公众号后台回复:加群

unsetunset关键问题unsetunset

问题1:MXFP4与全局旋转的冲突是否存在格式或模型特异性?

论文指出全局旋转基方法与 MXFP4 的 PoT 块缩放机制存在本质冲突,进而导致量化性能暴跌,该结论是否仅局限于 MXFP4 格式?换成 FP4 等其他低精度浮点格式时,这类冲突是否会缓解或消失?此外,该冲突在小参数量 LLM 与超大规模 LLM 上的表现是否一致,是否存在模型参数量阈值影响冲突的强弱程度?

该冲突存在显著格式特异性,模型特异性则体现在冲突强弱与模型规模、架构相关。

从格式来看,冲突根源是MXFP4独特的PoT块缩放机制,其对块内数值的重构依赖2的幂次量化规则,而FP4等其他低精度浮点格式无此严格的块级PoT约束,更多是全局或灵活的量化映射,全局旋转放大的数值可通过格式自身的数值适配能力部分抵消,因此换成这类格式后冲突会明显缓解。

从模型来看,冲突存在参数量阈值差异,小参数量LLM的参数分布更集中、离群值少,全局旋转对数值的放大效应有限,冲突较弱;而LLaMA、Mistral等中大规模模型参数长尾分布显著,离群值更多,全局旋转会急剧放大跨块数值差异,与MXFP4的重构短板形成强冲突,且参数量越大,该冲突越突出,不存在全尺度模型统一的冲突强度

问题2:BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾?

论文提出的块旋转量化(BRQ)通过块内独立旋转解决误差传播问题,但其块大小的设定未明确核心权衡点。当块大小缩小时,虽可能进一步抑制离群值,但会不会急剧增加硬件调度与计算的额外开销?而块增大时,是否会逼近全局旋转的弊端,导致精度回升受限?这种精度与开销的矛盾是否存在最优解,且该最优解能否适配不同架构的 LLM?

这种矛盾并非不可调和,而是存在适配不同场景的动态权衡最优解,且可通过结合模型与硬件特性实现平衡。

  • 当块大小缩小时,虽能更精细地抑制局部离群值,进一步提升量化精度,但硬件需频繁处理小块数据,调度开销会增加,不过论文中BRQ的推理延迟已较全局旋转降低40%,且可通过硬件层面的并行调度优化抵消小块带来的额外开销,不会出现开销急剧飙升的情况。
  • 当块大小增大时,虽会拉近与全局旋转的距离,但因BRQ始终保持块内独立旋转,避免了跨块误差传播,其精度仍显著优于全局旋转,且此时硬件调度效率提升,计算开销降低。

此外,该最优解可适配不同架构LLM,比如针对Qwen这类架构更紧凑的模型,可选用稍大的块平衡开销;针对Mistral这类推理对精度敏感的模型,可选用小块保障性能,实现精度与开销的动态适配。

unsetunset本文目录unsetunset

  • 关键问题
    • 问题1:MXFP4与全局旋转的冲突是否存在格式或模型特异性?
    • 问题2:BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾?
  • 本文目录
  • 一、研究背景与核心问题
  • 二、PTQ 方法分类(针对 W4A4 量化)
  • 三、MXFP4 量化基准测试与关键发现
    • 1. 实验设置
    • 2. 基准测试核心结论
  • 四、旋转与 MXFP4 不兼容的根源分析
  • 五、解决方案:块旋转量化(BRQ)
    • 1. 核心设计
    • 2. BRQ 的优势
  • 六、BRQ 实验验证
    • 1. 性能提升(对比现有方法)
    • 2. 效率优势(预填充延迟)
    • 3. 旋转维度适配性
  • 七、结论与未来工作
    • 1. 核心贡献
    • 2. 未来方向
  • 八、附录关键补充
交流加群请在 NeuralTalk 公众号后台回复:加群

unsetunset一、研究背景与核心问题unsetunset

  1. 大模型量化需求:大语言模型(LLMs)规模激增导致内存、计算成本过高,训练后量化(PTQ)是高效部署的关键方案,但W4A4(4 位权重+4 位激活)量化精度仍是挑战,尤其对 LLaMA-3.2 1B/3B 等模型, naive 4 位量化性能损失严重。
  2. MXFP4 格式的兴起:MXFP4 是 Open Compute Project(OCP)提出的新型 FP4 格式,支持 NVIDIA RTX 5090/B200、AMD Ryzen AI MAX+395 等硬件,相比 INT4 更适配长尾分布、动态范围更广,还支持低精度训练,且 OpenAI 的 gpt-oss 模型已原生支持,是未来低精度格式核心方向。
  3. 核心矛盾:现有 PTQ 方法多为 INT4 设计,在 MXFP4 上适用性不明;尤其旋转类方法(SOTA INT4 量化的核心)与 MXFP4 严重不兼容,导致性能崩溃,需解决该兼容性问题并建立 MXFP4 的 W4A4 量化基准。

unsetunset二、PTQ 方法分类(针对 W4A4 量化)unsetunset

论文将现有 PTQ 方法分为三类,明确各类型原理与代表方法:

类别
核心原理
代表方法及特点
补偿型
调整量化后权重,显式修正低比特扰动误差
- GPTQ:利用海森矩阵二阶信息优化权重列,降低量化损失;
- BoA:融入注意力感知海森矩阵;
- RSQ:基于 token 级加权补偿
变换型
通过等价变换重分布/重塑数据,抑制离群值影响
- SmoothQuant:将激活离群值分散到权重尺度;
- QuaRot:用旋转变换将离群值分散到小幅度通道;
- QuIP#:随机哈达玛变换降低通道相关性
优化型
将变换参数化为可学习变量,梯度优化适配低比特
- OmniQuant:学习权重裁剪与等价变换;
- SpinQuant:优化旋转矩阵以分散权重离群值;
- KurTail:基于峰度的旋转抑制激活离群值

unsetunset三、MXFP4 量化基准测试与关键发现unsetunset

1. 实验设置

  • 硬件与工具:NVIDIA A800 GPU,基于 Microsoft/microxcaling 仓库模拟 MXFP4 量化。
  • 测试模型:覆盖多尺度/架构 LLM——LLaMA-2 7B/13B、LLaMA-3 8B、LLaMA-3.2 1B/3B、Mistral-7B、Qwen2.5 1.5B/3B/7B。
  • 评估指标:语言建模质量用 WikiText2 的困惑度(PPL),下游任务用 5 个零样本准确率(PIQA、WinoGrande、OpenBookQA、ARC-Easy、ARC-Challenge)。
  • 对比方法:RTN(基线)、BINT4(INT4 块量化基线)、GPTQ、SmoothQuant、QuaRot(含 QuaRot+GPTQ)、OmniQuant、SpinQuant。
表1:在FP16、BINT4和MXFP4量化条件下,多个大语言模型(LLMs)的WikiText困惑度(Wiki)和平均零样本准确率(Avg.)对比。QuaRot+表示集成了GPTQ算法的变体。最佳结果以黑色粗体突出显示,最差结果以灰色粗体突出显示
表1:在FP16、BINT4和MXFP4量化条件下,多个大语言模型(LLMs)的WikiText困惑度(Wiki)和平均零样本准确率(Avg.)对比。QuaRot+表示集成了GPTQ算法的变体。最佳结果以黑色粗体突出显示,最差结果以灰色粗体突出显示

2. 基准测试核心结论

  1. MXFP4 原生量化性能差:MXFP4 的 RTN 量化比 FP16 和 BINT4 均有显著精度损失(如 LLaMA-2 7B:MXFP4 RTN 的 PPL=7.08/Avg=57.26,BINT4 为 5.94/61.30,FP16 为 5.47/62.59)。
  2. 补偿型方法最稳定:GPTQ 在 MXFP4 上表现最优,部分模型超 BINT4(如 LLaMA-3.2 1B:GPTQ 的 PPL=13.35/Avg=48.52,BINT4 为 13.56/48.36)。
  3. 旋转类方法兼容性差
    • 纯 QuaRot(随机旋转+RTN)导致性能崩溃(LLaMA-2 7B:PPL 从 7.08 升至 13.09,Avg 从 57.26 降至 50.32);
    • 即使结合 GPTQ(QuaRot+),提升仍有限;
    • SpinQuant(优化旋转矩阵)虽缓解部分问题,但仍不及 GPTQ(如 Mistral-7B:SpinQuant 的 Avg=63.79,GPTQ 为 63.34,差距微小)。
  4. FP4 与 INT4 的差异:无旋转时,BFP4/MXFP4(FP4 类)性能优于 BINT4/MXINT4(INT4 类);但旋转会导致 FP4 类性能下降,尤其 MXFP4 受 PoT(2 的幂)缩放影响更显著。
图1:MXFP4下量化方法的整体性能。x轴表示困惑度,y轴表示平均下游准确率,越靠近左上角的方法越接近FP16基准,表明性能越好
图1:MXFP4下量化方法的整体性能。x轴表示困惑度,y轴表示平均下游准确率,越靠近左上角的方法越接近FP16基准,表明性能越好
图2:不同量化格式下旋转及其变体的效果。Rot表示采用随机阿达马变换并结合RTN;Rot+GPTQ表示将该变换与GPTQ相结合;而Opt. Rot+GPTQ表示采用优化的旋转矩阵并结合GPTQ
图2:不同量化格式下旋转及其变体的效果。Rot表示采用随机阿达马变换并结合RTN;Rot+GPTQ表示将该变换与GPTQ相结合;而Opt. Rot+GPTQ表示采用优化的旋转矩阵并结合GPTQ

unsetunset四、旋转与 MXFP4 不兼容的根源分析unsetunset

论文首次深入剖析该问题,核心矛盾源于MXFP4 的 PoT 块缩放机制与全局旋转的能量重分布冲突

图3:(a)展示了PoT格式的舍入误差曲线。(b)和(c)分别显示了MXFP4相对于BFP4在常规块和异常值块上的量化误差。柱状图代表原始激活值(右轴),线条表示相对量化误差(左轴)
图3:(a)展示了PoT格式的舍入误差曲线。(b)和(c)分别显示了MXFP4相对于BFP4在常规块和异常值块上的量化误差。柱状图代表原始激活值(右轴),线条表示相对量化误差(左轴)
图5:旋转变换对激活分布的影响。横轴表示分割阈值,纵轴表示大于该阈值的数据所占的百分比
图5:旋转变换对激活分布的影响。横轴表示分割阈值,纵轴表示大于该阈值的数据所占的百分比
  1. MXFP4 的局限性:大值恢复能力弱
    MXFP4 采用固定块大小(32 通道)的 PoT 共享缩放,对块内大值(离群值)的量化误差随数值增大急剧上升(图 3),常规块(无离群值)量化精度依赖块内数值稳定性。
  2. 全局旋转的副作用:放大常规块数值
    全局旋转通过正交变换将少数通道的离群值能量分散到所有通道,虽降低离群值影响,但不减少总能量,导致原本小值的常规块数值被放大(采样数据显示:旋转后>1.5 的激活占比从 5%升至 11%,图 5)。
  3. 冲突后果:常规块占比远高于离群块(>99%),放大后的常规块因 MXFP4 的 PoT 缩放误差大,累积误差主导量化损失,最终导致性能崩溃(见下面图 6 显示:旋转后常规块量化误差显著上升)。
图6:应用不同旋转后常规块的平均量化损失(对数结果),其中异常值被定义为按绝对值降序排列的前0.1%的激活值(Dettmers等人,2022年)。
图6:应用不同旋转后常规块的平均量化损失(对数结果),其中异常值被定义为按绝对值降序排列的前0.1%的激活值(Dettmers等人,2022年)。
图 4:不同转换后 Llama-3 8B 激活分布的比较
图 4:不同转换后 Llama-3 8B 激活分布的比较

unsetunset五、解决方案:块旋转量化(BRQ)unsetunset

1. 核心设计

针对 MXFP4 的块结构,提出按块独立旋转:将激活按 MXFP4 块大小(如 32 通道)分割,每个块内执行独立正交旋转,构造块对角旋转矩阵:

(其中 为块大小, 为块数, 为正交矩阵)

图7:块旋转的原理:全局旋转会将离群值分散到所有通道中,导致常规块的尺度增大,并加剧量化误差。块级旋转会在局部重新分配离群值,在减轻离群值影响的同时保持常规块的尺度不变,从而将量化误差降至最低
图7:块旋转的原理:全局旋转会将离群值分散到所有通道中,导致常规块的尺度增大,并加剧量化误差。块级旋转会在局部重新分配离群值,在减轻离群值影响的同时保持常规块的尺度不变,从而将量化误差降至最低

2. BRQ 的优势

  1. 保留离群值抑制能力:块内旋转仍能分散块内离群值能量,避免单一离群值主导量化。
  2. 控制常规块误差:旋转仅在块内进行,避免跨块放大常规块数值,减少 MXFP4 的 PoT 缩放误差。
  3. 降低计算复杂度:全局旋转复杂度为 ,BRQ 降至 为输入维度),提升部署效率。

unsetunset六、BRQ 实验验证unsetunset

1. 性能提升(对比现有方法)

表2展示了在MXFP4格式下,将分块随机哈达玛旋转与GPTQ相结合的结果。与QuaRot+中的全局旋转相比,BRQ带来了显著改进,除LLaMA-3.2 3B外,在所有情况下都超过了强大的BINT4基线。特别是在更具挑战性的LLaMA-3.2 1B和Qwen2.5 1.5B模型上,BRQ将困惑度从12.78/12.80降至11.95/12.15,并将下游任务准确率从48.83/53.50提升至49.87/54.83。这些结果证实,分块旋转是使基于旋转的方法与MXFP4相协调的关键,进一步印证了我们的分析
表3:优化的块旋转变换(BRQSpin)、随机块旋转变换(BRQ)和优化的全局旋转变换(SpinQuant)的性能比较
表3:优化的块旋转变换(BRQSpin)、随机块旋转变换(BRQ)和优化的全局旋转变换(SpinQuant)的性能比较

2. 效率优势(预填充延迟)

表4:不同序列长度和批次大小下LLaMA-2 7B的预填充延迟(毫秒)。开销是相对于MXFP4计算的
表4:不同序列长度和批次大小下LLaMA-2 7B的预填充延迟(毫秒)。开销是相对于MXFP4计算的

在 LLaMA-2 7B 上,BRQ 的延迟开销显著低于 QuaRot(全局旋转):

  • 批次 1、序列长度 4096:BRQ 开销 2.53%,QuaRot 为 4.64%;
  • 批次 8、序列长度 4096:BRQ 开销 1.34%,QuaRot 为 3.82%。

3. 旋转维度适配性

当 BRQ 的旋转维度与 MXFP4 块大小(32)一致时,PPL 最低(图 8),验证了块大小匹配的重要性。

图8:旋转矩阵维度对量化精度的影响
图8:旋转矩阵维度对量化精度的影响

unsetunset七、结论与未来工作unsetunset

1. 核心贡献

  1. 建立首个 MXFP4 的 W4A4 PTQ 基准,系统评估三类 PTQ 方法的适用性。
  2. 揭示旋转与 MXFP4 不兼容的根源:PoT 块缩放与全局旋转的能量重分布冲突。
  3. 提出 BRQ 方法,解决兼容性问题,在多模型上实现精度与效率双提升。

2. 未来方向

  1. 探索更优的 BRQ 旋转矩阵优化方案(如结合更高效的梯度下降)。
  2. 替换在线快速哈达玛变换,平衡精度与推理延迟。
  3. 扩展 MXFP4 量化至更大规模模型(如 100B+)与更多任务场景。

unsetunset八、附录关键补充unsetunset

  1. 70B 模型验证:LLaMA-2 70B 上 BRQ 仍优于 QuaRot+,证明大规模模型适用性(表 5)。
  2. 块尺度变化可视化:全局旋转使 70%常规块尺度上升,BRQ 可缓解 83.3%的尺度膨胀(图 9、10)。
  3. 详细实验数据:提供各模型在 5 个下游任务的具体准确率(如 LLaMA-3.2 3B 的 ARC-C 任务,BRQ 准确率 40.44%,QuaRot+为 38.48%)。
相关推荐
交流加群请在 NeuralTalk 公众号后台回复:加群

【声明】内容源于网络
0
0
NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署,v: zhushi202409
内容 517
粉丝 0
NeuralTalk 关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署,v: zhushi202409
总阅读776
粉丝0
内容517