

【CNCC2025分享系列】大模型推理与加速：解锁高效AI新境界

InfiniTensor

2025-12-11

导读：当前，大模型正迅速成为各行各业智能化转型的核心工具。然而，巨大的计算资源消耗和推理延迟成为其实际应用的主要瓶颈。

当前，大模型正迅速成为各行各业智能化转型的核心工具。然而，巨大的计算资源消耗和推理延迟成为其实际应用的主要瓶颈。
🔧核心突破点在于从底层算子到顶层架构的系统性优化。

🚀大模型推理系统加速技术

🧩算子优化：FlashTensor的细粒度突破

算子优化是提升推理性能的关键。传统DSL方案与手写CUDA存在性能差距，而FlashTensor通过细粒度分析实现了新突破。长上下文场景下，早期方案（如FlashAttention、TVM）因内核粒度不足，导致硬件利用率低。

FlashTensor通过数据流的算法分析张量依赖关系，优化计算顺序，减少中间结果输出，降低访存开销，提升推理效率。

💾内存管理：Jenga的动态分配策略

内存碎片是异构模型（如Qwen-Next）推理的常见问题。
🛠️Jenga借鉴操作系统内存管理思想，基于LCM大页实现动态内存划分，尽可能减少碎片。这一方案在异构大模型推理场景中表现出色，吞吐量相比 SOTA 有明显提升。

⚖️模型量化：MIXQ的精度与速度平衡

模型量化通过降低精度来减少计算开销，但不同方案各有局限：

• Weight Only量化：存储小，但计算时需反量化，性能提升有限。
• 激活+权重INT8量化：计算快，但精度损失明显。
• 混合精度量化：精度损失低，显存用量少，但算子难写

MIXQ 结合调度、编译和运行时优化，在英伟达芯片上实现1.5–1.6倍性能提升，精度损失可控，接近FP16速度的2倍。

🔀异构调度：FastDecode的资源优化

推理不同阶段的计算密度差异显著：Prefill阶段计算密集，Decode阶段访存密集。
FastDecode 主要是针对非 MoE 模型，将特定任务模块卸载至CPU，提升吞吐。

🤝面向交互式大模型推理的键值缓存优化设计

核心挑战：存算割裂

交互式推理中，KV Cache重复计算占比超90%。现有存算方案因“存算割裂”，导致延迟增加5倍、吞吐降低2倍，严重影响了推理的性能和效率。

创新解决方案：存算双向感知

通过两种策略实现优化：

• 基于回答长度的替换策略：预测数据重用需求，提升高速设备命中率。
• 基于投入产出比的存储策略：权衡存储开销与计算收益，降低中间成本50%。

技术成效

高性能设备存储缺失率降低70%，请求平均等待时间减少60%，显著提升交互体验。

🏗️MoonCake：以KV Cache为中心的推理架构

💰核心问题：降低成本，满足SLO

在大规模、长文本场景下，LLM推理成本较高，同时需要满足SLO（Service Level Objective）中的TTFT（Time To First Token）和TBT（Time Between Tokens）要求，使得推理架构设计面临严峻挑战。
MoonCake通过“以存换算”架构，实现资源高效利用。

🔑关键技术

• 前缀缓存复用：50%的KV Cache可被命中，较vLLM本地缓存大幅提升。
• 多级存储体系：利用GPU集群的CPU、DRAM、SSD等资源，构建分布式缓存。
• 高性能传输：资源池化和零拷贝，保障低延迟与高带宽传输。

🏆架构优势

• MoonCake Store：透明多级缓存，降低响应延迟。
• Transfer Engine：支持8×400Gbps聚合带宽，全链路零拷贝，灵活性超越NCCL。

🌟通过算子、内存、量化及调度技术的协同创新，大模型推理正逐步突破性能瓶颈。MoonCake等架构的探索，为AI技术规模化落地奠定基础。随着技术迭代，大模型将在更多场景中发挥价值，推动高效AI时代的到来。

📰 信息来源

本文整理的技术内容摘自 CNCC 2025（中国计算机大会）现场报告与论坛分享。CNCC 是国内外知名学者和企业专家汇聚的年度盛会，关注前沿技术趋势与创新成果。

📚 知识充电站

如果你希望持续获取 AI 系统优化、大模型、CUDA 编程等方向的前沿解析与技术干货，欢迎关注我们的公众号 「InfiniTensor」。在这里，我们不仅分享知识，更致力于构建一个共同成长的学习社区。

【声明】内容源于网络

InfiniTensor

人工智能编译器

内容 82

粉丝 0

InfiniTensor 人工智能编译器

总阅读60

粉丝0

内容82