

Kimi-K2-Instruct：在 AMD GPU 上的开箱即用推理实践

AMD开发者中心

2025-12-02

本文面向需要在本地或生产环境中“跑通并调优”推理服务的开发者，介绍如何在 AMD GPU 平台上高效部署 Kimi-K2-Instruct 模型 [1]。在基于统一的 SGLang 框架与一致的参数配置下，我们观察到随着并发提升，推理服务在首 Token 延迟（Time to First Token, TTFT）、端到端延迟（End-to-End Latency, E2E）以及 Token 吞吐量（tok/s）等关键指标上均表现出良好的性能与稳定性。同时，借助更大显存容量的平台，可以在高并发场景下显著降低排队与上下文切换开销，从而提升整体服务质量。

Part.01

硬件与软件前提

为便于复现并在高并发推理场景下获得稳定表现，AMD GPU示例平台具备以下特性：

显存与带宽：约288 GB 显存，显存带宽约 8 TB/s，有助于在高并发下降低上下文与缓存压力。

数据类型支持：支持更低精度的数据类型（如FP6/FP4），便于在精度与性能之间灵活权衡。

软件栈与生态：与 ROCm、主流 AI 框架及高性能数学库协同良好，具备较好的“开箱即用”体验与可复现性。

说明：以上为复现实验所需的通用条件示例，具体硬件/软件选型不影响本文的方法与结论。若读者平台配置不同，建议按本地资源与约束对参数进行适配与调优。

Part.02

Kimi-K2-Instruct 服务与基准观测

本文基于统一的 SGLang 版本与参数，重点观测以下三类指标在不同并发度下的行为特征：

TTFT（毫秒，数值越低越好）：在并发升高的情况下仍能维持较低的首 Token 延迟，从而保证良好的交互式响应体验。

E2E（毫秒，数值越低越好）：端到端延迟在更高并发下依旧保持可控，整体稳定性表现良好。

Token 吞吐量（tok/s，数值越高越好）：随着并发增加，吞吐量持续提升，适用于高并行负载与大规模推理服务场景。

上述性能表现受到多项因素影响，包括显存容量、attention后端实现、内核调度参数等。建议在自身环境中对 Prompt 长度、输出长度、并发度及attention后端进行组合测试，以定位瓶颈并找到最优配置。

Part.03

复现实验

按照以下步骤，可在本地环境中复现实验结果。

1. 启动 SGLang 容器与准备环境

docker pull lmsysorg/sglang:v0.4.9.post2-rocm700-mi35x
export MODEL_DIR=< Kimi-K2-Instruct saved_path>docker run -it \    --ipc=host \    --network=host \    --privileged \    --shm-size 32G \    --cap-add=CAP_SYS_ADMIN \    --device=/dev/kfd \    --device=/dev/dri \--group-add video \    --cap-add=SYS_PTRACE \    --security-opt seccomp=unconfined \    --security-opt apparmor=unconfined \    -v $MODEL_DIR:/model \    lmsysorg/sglang:v0.4.9.post2-rocm700-mi35x

2. 启动 SGLang 模型服务（Triton attention后端）

# for the gfx950 architecture, set the kpack parameter to 1 in the triton attention kernel.cd /sgl-workspace/sglangwget https://raw.githubusercontent.com/Vivicai1005/triton_feature/main/feature.patchgit apply feature.patch
# start serving with triton backendpython3 -m sglang.launch_server --model moonshotai/Kimi-K2-Instruct --trust-remote-code --tp 8

3. 运行基准测试脚本（并发与序列长度可调）

CON="16 32 64 128"ISL=3200OSL=800for con in $CON; do    PROMPTS=$(($con * 5))    python3 -m sglang.bench_serving \        --dataset-name random \        --random-input-len $ISL \        --random-output-len $OSL \        --num-prompt $PROMPTS \        --random-range-ratio 1.0 \        --max-concurrency $condone

Part.04

总结

在统一的测试设置下，AMD GPU 平台运行 Kimi-K2-Instruct 可获得良好的“开箱即用”体验：更快的首 Token 延迟（TTFT）、更稳定的端到端延迟（E2E）、更高的 Token 吞吐量（tok/s）均更容易达成，尤其适合高并发推理服务场景。

更大的显存容量与合理的后端配置（如attention后端、分片/张量并行策略等）是进一步提升并发能力与吞吐性能的关键。建议在自有环境中对attention后端、分片/张量并行参数以及输入/输出序列长度进行系统化的对齐与调优。

以上结果仅在文中设置与样例平台下验证，实际表现依赖于具体硬件、软件与数据分布，请以本地复现为准。

Part.05

参考资源

[1] Kimi-K2-Instruct（Hugging Face）： https://huggingface.co/moonshotai/Kimi-K2-Instruct

[2] SGLang Docker 镜像（标签）：https://hub.docker.com/r/lmsysorg/sglang/tags

Part.06

免责声明

第三方内容由相应第三方直接授权并提供，非由AMD 授权或提供。所有链接的第三方内容均按“现状”提供，不附带任何形式的担保。使用第三方内容由你自行决策，AMD 在任何情况下均不对第三方内容承担责任。你需自行承担使用第三方内容可能产生的所有风险与损失。

【声明】内容源于网络

AMD开发者中心

AMD开发者中心为开发者提供工具、技术和资源，助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN，帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心，开启智能未来！

内容 65

粉丝 0

AMD开发者中心 AMD开发者中心为开发者提供工具、技术和资源，助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN，帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心，开启智能未来！

总阅读61

粉丝0

内容65