面向 LLM 的 MXFP4 专属 PTQ 方案：BRQ 策略实现跨模型量化精度提升与 40% 推理提速



面向 LLM 的 MXFP4 专属 PTQ 方案：BRQ 策略实现跨模型量化精度提升与 40% 推理提速

NeuralTalk

2025-11-10

导读：LLM规模化存高存储与计算成本，但PTQ的W4A4量化准确性低，MXFP4适配长尾分布且软硬件兼容但缺专属PTQ方法。评估显示全局旋转基方法与其实质冲突致性能暴跌，本文提出BRQ策略提升精度，性能较全

关键词：大语言模型、MXFP4格式、训练后量化、块旋转量化、低精度量化、模型部署

Block Rotation is All You Need for MXFP4 Quantization
https://arxiv.org/pdf/2511.04214
3000 字，阅读 10 分钟，播客 19 分钟

unsetunset关键问题unsetunset

问题1：MXFP4与全局旋转的冲突是否存在格式或模型特异性？

论文指出全局旋转基方法与 MXFP4 的 PoT 块缩放机制存在本质冲突，进而导致量化性能暴跌，该结论是否仅局限于 MXFP4 格式？换成 FP4 等其他低精度浮点格式时，这类冲突是否会缓解或消失？此外，该冲突在小参数量 LLM 与超大规模 LLM 上的表现是否一致，是否存在模型参数量阈值影响冲突的强弱程度？

该冲突存在显著格式特异性，模型特异性则体现在冲突强弱与模型规模、架构相关。

从格式来看，冲突根源是MXFP4独特的PoT块缩放机制，其对块内数值的重构依赖2的幂次量化规则，而FP4等其他低精度浮点格式无此严格的块级PoT约束，更多是全局或灵活的量化映射，全局旋转放大的数值可通过格式自身的数值适配能力部分抵消，因此换成这类格式后冲突会明显缓解。

从模型来看，冲突存在参数量阈值差异，小参数量LLM的参数分布更集中、离群值少，全局旋转对数值的放大效应有限，冲突较弱；而LLaMA、Mistral等中大规模模型参数长尾分布显著，离群值更多，全局旋转会急剧放大跨块数值差异，与MXFP4的重构短板形成强冲突，且参数量越大，该冲突越突出，不存在全尺度模型统一的冲突强度。

问题2：BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾？

论文提出的块旋转量化（BRQ）通过块内独立旋转解决误差传播问题，但其块大小的设定未明确核心权衡点。当块大小缩小时，虽可能进一步抑制离群值，但会不会急剧增加硬件调度与计算的额外开销？而块增大时，是否会逼近全局旋转的弊端，导致精度回升受限？这种精度与开销的矛盾是否存在最优解，且该最优解能否适配不同架构的 LLM？

这种矛盾并非不可调和，而是存在适配不同场景的动态权衡最优解，且可通过结合模型与硬件特性实现平衡。

当块大小缩小时，虽能更精细地抑制局部离群值，进一步提升量化精度，但硬件需频繁处理小块数据，调度开销会增加，不过论文中BRQ的推理延迟已较全局旋转降低40%，且可通过硬件层面的并行调度优化抵消小块带来的额外开销，不会出现开销急剧飙升的情况。
当块大小增大时，虽会拉近与全局旋转的距离，但因BRQ始终保持块内独立旋转，避免了跨块误差传播，其精度仍显著优于全局旋转，且此时硬件调度效率提升，计算开销降低。

此外，该最优解可适配不同架构LLM，比如针对Qwen这类架构更紧凑的模型，可选用稍大的块平衡开销；针对Mistral这类推理对精度敏感的模型，可选用小块保障性能，实现精度与开销的动态适配。

unsetunset本文目录unsetunset

关键问题

问题1：MXFP4与全局旋转的冲突是否存在格式或模型特异性？
问题2：BRQ策略的块大小选择是否存在精度与开销的不可调和矛盾？

本文目录
一、研究背景与核心问题
二、PTQ 方法分类（针对 W4A4 量化）
三、MXFP4 量化基准测试与关键发现

1. 实验设置
2. 基准测试核心结论

四、旋转与 MXFP4 不兼容的根源分析
五、解决方案：块旋转量化（BRQ）

1. 核心设计
2. BRQ 的优势

六、BRQ 实验验证

1. 性能提升（对比现有方法）
2. 效率优势（预填充延迟）
3. 旋转维度适配性

七、结论与未来工作

1. 核心贡献
2. 未来方向

八、附录关键补充

unsetunset一、研究背景与核心问题unsetunset

大模型量化需求：大语言模型（LLMs）规模激增导致内存、计算成本过高，训练后量化（PTQ）是高效部署的关键方案，但W4A4（4 位权重+4 位激活）量化精度仍是挑战，尤其对 LLaMA-3.2 1B/3B 等模型， naive 4 位量化性能损失严重。
MXFP4 格式的兴起：MXFP4 是 Open Compute Project（OCP）提出的新型 FP4 格式，支持 NVIDIA RTX 5090/B200、AMD Ryzen AI MAX+395 等硬件，相比 INT4 更适配长尾分布、动态范围更广，还支持低精度训练，且 OpenAI 的 gpt-oss 模型已原生支持，是未来低精度格式核心方向。
核心矛盾：现有 PTQ 方法多为 INT4 设计，在 MXFP4 上适用性不明；尤其旋转类方法（SOTA INT4 量化的核心）与 MXFP4 严重不兼容，导致性能崩溃，需解决该兼容性问题并建立 MXFP4 的 W4A4 量化基准。

unsetunset二、PTQ 方法分类（针对 W4A4 量化）unsetunset

论文将现有 PTQ 方法分为三类，明确各类型原理与代表方法：

类别	核心原理	代表方法及特点
补偿型	调整量化后权重，显式修正低比特扰动误差	- GPTQ：利用海森矩阵二阶信息优化权重列，降低量化损失； - BoA：融入注意力感知海森矩阵； - RSQ：基于 token 级加权补偿
变换型	通过等价变换重分布/重塑数据，抑制离群值影响	- SmoothQuant：将激活离群值分散到权重尺度； - QuaRot：用旋转变换将离群值分散到小幅度通道； - QuIP#：随机哈达玛变换降低通道相关性
优化型	将变换参数化为可学习变量，梯度优化适配低比特	- OmniQuant：学习权重裁剪与等价变换； - SpinQuant：优化旋转矩阵以分散权重离群值； - KurTail：基于峰度的旋转抑制激活离群值

unsetunset三、MXFP4 量化基准测试与关键发现unsetunset

1. 实验设置

硬件与工具：NVIDIA A800 GPU，基于 Microsoft/microxcaling 仓库模拟 MXFP4 量化。
测试模型：覆盖多尺度/架构 LLM——LLaMA-2 7B/13B、LLaMA-3 8B、LLaMA-3.2 1B/3B、Mistral-7B、Qwen2.5 1.5B/3B/7B。
评估指标：语言建模质量用 WikiText2 的困惑度（PPL），下游任务用 5 个零样本准确率（PIQA、WinoGrande、OpenBookQA、ARC-Easy、ARC-Challenge）。
对比方法：RTN（基线）、BINT4（INT4 块量化基线）、GPTQ、SmoothQuant、QuaRot（含 QuaRot+GPTQ）、OmniQuant、SpinQuant。

表1：在FP16、BINT4和MXFP4量化条件下，多个大语言模型（LLMs）的WikiText困惑度（Wiki）和平均零样本准确率（Avg.）对比。QuaRot+表示集成了GPTQ算法的变体。最佳结果以黑色粗体突出显示，最差结果以灰色粗体突出显示

2. 基准测试核心结论

MXFP4 原生量化性能差：MXFP4 的 RTN 量化比 FP16 和 BINT4 均有显著精度损失（如 LLaMA-2 7B：MXFP4 RTN 的 PPL=7.08/Avg=57.26，BINT4 为 5.94/61.30，FP16 为 5.47/62.59）。
补偿型方法最稳定：GPTQ 在 MXFP4 上表现最优，部分模型超 BINT4（如 LLaMA-3.2 1B：GPTQ 的 PPL=13.35/Avg=48.52，BINT4 为 13.56/48.36）。
旋转类方法兼容性差：

纯 QuaRot（随机旋转+RTN）导致性能崩溃（LLaMA-2 7B：PPL 从 7.08 升至 13.09，Avg 从 57.26 降至 50.32）；
即使结合 GPTQ（QuaRot+），提升仍有限；
SpinQuant（优化旋转矩阵）虽缓解部分问题，但仍不及 GPTQ（如 Mistral-7B：SpinQuant 的 Avg=63.79，GPTQ 为 63.34，差距微小）。

FP4 与 INT4 的差异：无旋转时，BFP4/MXFP4（FP4 类）性能优于 BINT4/MXINT4（INT4 类）；但旋转会导致 FP4 类性能下降，尤其 MXFP4 受 PoT（2 的幂）缩放影响更显著。

图1：MXFP4下量化方法的整体性能。x轴表示困惑度，y轴表示平均下游准确率，越靠近左上角的方法越接近FP16基准，表明性能越好

图2：不同量化格式下旋转及其变体的效果。Rot表示采用随机阿达马变换并结合RTN；Rot+GPTQ表示将该变换与GPTQ相结合；而Opt. Rot+GPTQ表示采用优化的旋转矩阵并结合GPTQ

unsetunset四、旋转与 MXFP4 不兼容的根源分析unsetunset

论文首次深入剖析该问题，核心矛盾源于MXFP4 的 PoT 块缩放机制与全局旋转的能量重分布冲突：

图3：（a）展示了PoT格式的舍入误差曲线。（b）和（c）分别显示了MXFP4相对于BFP4在常规块和异常值块上的量化误差。柱状图代表原始激活值（右轴），线条表示相对量化误差（左轴）

图5：旋转变换对激活分布的影响。横轴表示分割阈值，纵轴表示大于该阈值的数据所占的百分比

MXFP4 的局限性：大值恢复能力弱
MXFP4 采用固定块大小（32 通道）的 PoT 共享缩放，对块内大值（离群值）的量化误差随数值增大急剧上升（图 3），常规块（无离群值）量化精度依赖块内数值稳定性。
全局旋转的副作用：放大常规块数值
全局旋转通过正交变换将少数通道的离群值能量分散到所有通道，虽降低离群值影响，但不减少总能量，导致原本小值的常规块数值被放大（采样数据显示：旋转后>1.5 的激活占比从 5%升至 11%，图 5）。
冲突后果：常规块占比远高于离群块（>99%），放大后的常规块因 MXFP4 的 PoT 缩放误差大，累积误差主导量化损失，最终导致性能崩溃（见下面图 6 显示：旋转后常规块量化误差显著上升）。

图6：应用不同旋转后常规块的平均量化损失（对数结果），其中异常值被定义为按绝对值降序排列的前0.1%的激活值（Dettmers等人，2022年）。

unsetunset五、解决方案：块旋转量化（BRQ）unsetunset

1. 核心设计

针对 MXFP4 的块结构，提出按块独立旋转：将激活按 MXFP4 块大小（如 32 通道）分割，每个块内执行独立正交旋转，构造块对角旋转矩阵：

（其中为块大小，为块数，为正交矩阵）

图7：块旋转的原理：全局旋转会将离群值分散到所有通道中，导致常规块的尺度增大，并加剧量化误差。块级旋转会在局部重新分配离群值，在减轻离群值影响的同时保持常规块的尺度不变，从而将量化误差降至最低

2. BRQ 的优势

保留离群值抑制能力：块内旋转仍能分散块内离群值能量，避免单一离群值主导量化。
控制常规块误差：旋转仅在块内进行，避免跨块放大常规块数值，减少 MXFP4 的 PoT 缩放误差。
降低计算复杂度：全局旋转复杂度为，BRQ 降至（为输入维度），提升部署效率。

unsetunset六、BRQ 实验验证unsetunset

1. 性能提升（对比现有方法）

表2展示了在MXFP4格式下，将分块随机哈达玛旋转与GPTQ相结合的结果。与QuaRot+中的全局旋转相比，BRQ带来了显著改进，除LLaMA-3.2 3B外，在所有情况下都超过了强大的BINT4基线。特别是在更具挑战性的LLaMA-3.2 1B和Qwen2.5 1.5B模型上，BRQ将困惑度从12.78/12.80降至11.95/12.15，并将下游任务准确率从48.83/53.50提升至49.87/54.83。这些结果证实，分块旋转是使基于旋转的方法与MXFP4相协调的关键，进一步印证了我们的分析

表3：优化的块旋转变换（BRQSpin）、随机块旋转变换（BRQ）和优化的全局旋转变换（SpinQuant）的性能比较

2. 效率优势（预填充延迟）

表4：不同序列长度和批次大小下LLaMA-2 7B的预填充延迟（毫秒）。开销是相对于MXFP4计算的

在 LLaMA-2 7B 上，BRQ 的延迟开销显著低于 QuaRot（全局旋转）：

批次 1、序列长度 4096：BRQ 开销 2.53%，QuaRot 为 4.64%；
批次 8、序列长度 4096：BRQ 开销 1.34%，QuaRot 为 3.82%。

3. 旋转维度适配性

当 BRQ 的旋转维度与 MXFP4 块大小（32）一致时，PPL 最低（图 8），验证了块大小匹配的重要性。

unsetunset七、结论与未来工作unsetunset

1. 核心贡献

建立首个 MXFP4 的 W4A4 PTQ 基准，系统评估三类 PTQ 方法的适用性。
揭示旋转与 MXFP4 不兼容的根源：PoT 块缩放与全局旋转的能量重分布冲突。
提出 BRQ 方法，解决兼容性问题，在多模型上实现精度与效率双提升。

2. 未来方向

探索更优的 BRQ 旋转矩阵优化方案（如结合更高效的梯度下降）。
替换在线快速哈达玛变换，平衡精度与推理延迟。
扩展 MXFP4 量化至更大规模模型（如 100B+）与更多任务场景。

unsetunset八、附录关键补充unsetunset

70B 模型验证：LLaMA-2 70B 上 BRQ 仍优于 QuaRot+，证明大规模模型适用性（表 5）。
块尺度变化可视化：全局旋转使 70%常规块尺度上升，BRQ 可缓解 83.3%的尺度膨胀（图 9、10）。
详细实验数据：提供各模型在 5 个下游任务的具体准确率（如 LLaMA-3.2 3B 的 ARC-C 任务，BRQ 准确率 40.44%，QuaRot+为 38.48%）。