本文面向需要在本地或生产环境中“跑通并调优”推理服务的开发者,介绍如何在 AMD GPU 平台上高效部署 Kimi-K2-Instruct 模型 [1]。在基于统一的 SGLang 框架与一致的参数配置下,我们观察到随着并发提升,推理服务在 首 Token 延迟(Time to First Token, TTFT)、端到端延迟(End-to-End Latency, E2E) 以及 Token 吞吐量(tok/s) 等关键指标上均表现出良好的性能与稳定性。同时,借助更大显存容量的平台,可以在高并发场景下显著降低排队与上下文切换开销,从而提升整体服务质量。
为便于复现并在高并发推理场景下获得稳定表现,AMD GPU示例平台具备以下特性:
显存与带宽:约288 GB 显存,显存带宽约 8 TB/s,有助于在高并发下降低上下文与缓存压力。
数据类型支持:支持更低精度的数据类型(如FP6/FP4),便于在精度与性能之间灵活权衡。
软件栈与生态:与 ROCm、主流 AI 框架及高性能数学库协同良好,具备较好的“开箱即用”体验与可复现性。
说明:以上为复现实验所需的通用条件示例,具体硬件/软件选型不影响本文的方法与结论。若读者平台配置不同,建议按本地资源与约束对参数进行适配与调优。
本文基于统一的 SGLang 版本与参数,重点观测以下三类指标在不同并发度下的行为特征:
TTFT(毫秒,数值越低越好):在并发升高的情况下仍能维持较低的首 Token 延迟,从而保证良好的交互式响应体验。
E2E(毫秒,数值越低越好):端到端延迟在更高并发下依旧保持可控,整体稳定性表现良好。
Token 吞吐量(tok/s,数值越高越好):随着并发增加,吞吐量持续提升,适用于高并行负载与大规模推理服务场景。
上述性能表现受到多项因素影响,包括显存容量、attention后端实现、内核调度参数等。建议在自身环境中对 Prompt 长度、输出长度、并发度及attention后端进行组合测试,以定位瓶颈并找到最优配置。
按照以下步骤,可在本地环境中复现实验结果。
1. 启动 SGLang 容器与准备环境
docker pull lmsysorg/sglang:v0.4.9.post2-rocm700-mi35xexport MODEL_DIR=< Kimi-K2-Instruct saved_path>docker run -it \--ipc=host \--network=host \--privileged \--shm-size 32G \--cap-add=CAP_SYS_ADMIN \--device=/dev/kfd \--device=/dev/dri \--group-add video \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--security-opt apparmor=unconfined \-v $MODEL_DIR:/model \lmsysorg/sglang:v0.4.9.post2-rocm700-mi35x
2. 启动 SGLang 模型服务(Triton attention后端)
# for the gfx950 architecture, set the kpack parameter to 1 in the triton attention kernel.cd /sgl-workspace/sglangwget https://raw.githubusercontent.com/Vivicai1005/triton_feature/main/feature.patchgit apply feature.patch# start serving with triton backendpython3 -m sglang.launch_server --model moonshotai/Kimi-K2-Instruct --trust-remote-code --tp 8
3. 运行基准测试脚本(并发与序列长度可调)
CON="16 32 64 128"ISL=3200OSL=800for con in $CON; doPROMPTS=$(($con * 5))python3 -m sglang.bench_serving \--dataset-name random \--random-input-len $ISL \--random-output-len $OSL \--num-prompt $PROMPTS \--random-range-ratio 1.0 \--max-concurrency $condone
在统一的测试设置下,AMD GPU 平台运行 Kimi-K2-Instruct 可获得良好的“开箱即用”体验:更快的首 Token 延迟(TTFT)、更稳定的端到端延迟(E2E)、更高的 Token 吞吐量(tok/s) 均更容易达成,尤其适合高并发推理服务场景。
更大的显存容量与合理的后端配置(如attention后端、分片/张量并行策略等)是进一步提升并发能力与吞吐性能的关键。建议在自有环境中对attention后端、分片/张量并行参数以及输入/输出序列长度进行系统化的对齐与调优。
以上结果仅在文中设置与样例平台下验证,实际表现依赖于具体硬件、软件与数据分布,请以本地复现为准。
[1] Kimi-K2-Instruct(Hugging Face): https://huggingface.co/moonshotai/Kimi-K2-Instruct
[2] SGLang Docker 镜像(标签):https://hub.docker.com/r/lmsysorg/sglang/tags
第三方内容由相应第三方直接授权并提供,非由AMD 授权或提供。所有链接的第三方内容均按“现状”提供,不附带任何形式的担保。使用第三方内容由你自行决策,AMD 在任何情况下均不对第三方内容承担责任。你需自行承担使用第三方内容可能产生的所有风险与损失。

