课程五-(二)-手撕代码: 一个工业级LLM量化runtime正式发布! 量化推理全过程一览无余！- 大数跨境

课程五-(二)-手撕代码: 一个工业级LLM量化runtime正式发布! 量化推理全过程一览无余！

AI不止算法

2025-12-12

导读：课程5-2项目是一个runtime(运行时)，专门支撑课程5-1量化工具输出的量化模型在SM75/SM80/SM89（turing, ampere, ada卡）的高性能推理

很多朋友一直在催课程5-2，上个月加班把视频录完了，这个月整理好了代码，今天终于发布！周末正好又有东西学了!

这是一个专门针对量化大模型的runtime(运行时)，支撑课程5-1量化工具输出的量化模型在SM75/SM80/SM89（turing, ampere, ada卡）的高性能推理。课程5-1和5-2组成姊妹课程，完整呈现了量化这门技术的全过程：

1. 假设我手上有一个大语言模型Qwen3-8B，我想先把它量化压缩一下，且量化手段在AWQ/smoothquant/FP8里面选，那么使用课程5-1的量化工具分别采用这3个手段得到了4个不同的量化模型: Qwen3-8B-awq, Qwen3-8B-sq, Qwen3-8B-fp8-dyn (fp8动态量化), Qwen3-8B-fp8-static (fp8静态量化)

2. 得到了量化模型后，基于课程5-2，我想首先让量化后模型跑起来，然后测试一下它的文本生成表现或者精度，精度合格后，我还想测试一下它的性能数据，包括prefill阶段延迟和吞吐，decode阶段延迟和吞吐，同样地，以上数据，针对原始未量化的Qwen3-8B模型也来一套，再深入地，拿到两个模型的profile数据做做分析。二者作为对比，得到了全面的模型量化效果评估指标。Moreover，细讲涉及到的具体工作，我们想自己手搓低精度w4a16 gemm/gemv kernel，借助cutlass写一写FP8/int8 gemm kernel，并且小串讲一下cutlass 2.x，并且测一下它们和量化前朴素版本的性能提升对比，你以为这样就完了？当然没有，模型并不只是gemm，还有norm，attention等等，这些也得搓或者调。。至此，量化的故事已然全部道完，不管你的量化算法再花哨，你的推理引擎多难读懂，量化的底裤已被扒完。撒花~

课程5-2十大特点

以上巴拉巴拉了许多，基本上把课程5-2涵盖的内容讲得七七八八，接下来再罗列一下5-2的功能范围：

支持经5-1多个量化后大语言模型的运行，包括dense模型和moe模型，例如Qwen3，Qwen3-MoE，LLama3，LLama4-MoE，OPT等
支持多种量化模型的运行：awq、sq(smoothquant)、fp8
支持多种量化粒度gemm算子：伪代码先行，然后手写或者借助cutlass实现per tensor/per channel/per group/per token gemm，其中fp8 per token+per channel gemm使用cutlass EVT开发，一种非常好用的开发fusedGemm系列的功能
针对AWQ，在batch size<8的decode阶段额外支持gemv算子
严格的低精度gemm公式推导，面试高频
cutlass 2.x代码小串讲
hack transformers runtime以支持两种模式的量化模型运行时
非linear算子采用transformers风格开发，包含attention，滑动kv cache，norm等，浅显易懂
API与5-1保持高度相似，降低学习成本
完备的精度加性能测试脚本和数据，以证明课程5-1量化工具实现正确，课程5-2的量化runtime实现高效