大数跨境
0
0

Kimi-K2-Instruct:在 AMD GPU 上的开箱即用推理实践

Kimi-K2-Instruct:在 AMD GPU 上的开箱即用推理实践 AMD开发者中心
2025-12-02
5

本文面向需要在本地或生产环境中跑通并调优推理服务的开发者,介绍如何在 AMD GPU 平台上高效部署 Kimi-K2-Instruct 模型 [1]。在基于统一的 SGLang 框架与一致的参数配置下,我们观察到随着并发提升,推理服务在 首 Token 延迟(Time to First Token, TTFT)、端到端延迟(End-to-End Latency, E2E) 以及 Token 吞吐量(tok/s) 等关键指标上均表现出良好的性能与稳定性。同时,借助更大显存容量的平台,可以在高并发场景下显著降低排队与上下文切换开销,从而提升整体服务质量。

Part.01
硬件与软件前提

为便于复现并在高并发推理场景下获得稳定表现,AMD GPU示例平台具备以下特性:

  • 显存与带宽:约288 GB 显存,显存带宽约 8 TB/s,有助于在高并发下降低上下文与缓存压力。

  • 数据类型支持:支持更低精度的数据类型(如FP6/FP4),便于在精度与性能之间灵活权衡。

  • 软件栈与生态 ROCm、主流 AI 框架及高性能数学库协同良好,具备较好的开箱即用体验与可复现性。


说明:以上为复现实验所需的通用条件示例,具体硬件/软件选型不影响本文的方法与结论。若读者平台配置不同,建议按本地资源与约束对参数进行适配与调优。

Part.02
Kimi-K2-Instruct 服务与基准观测

本文基于统一的 SGLang 版本与参数,重点观测以下三类指标在不同并发度下的行为特征:

  • TTFT(毫秒,数值越低越好):在并发升高的情况下仍能维持较低的首 Token 延迟,从而保证良好的交互式响应体验。

  • E2E(毫秒,数值越低越好):端到端延迟在更高并发下依旧保持可控,整体稳定性表现良好。

  • Token 吞吐量(tok/s,数值越高越好):随着并发增加,吞吐量持续提升,适用于高并行负载与大规模推理服务场景。


上述性能表现受到多项因素影响,包括显存容量、attention后端实现、内核调度参数等。建议在自身环境中对 Prompt 长度、输出长度、并发度及attention后端进行组合测试,以定位瓶颈并找到最优配置。

Part.03
复现实验

按照以下步骤,可在本地环境中复现实验结果。

1. 启动 SGLang 容器与准备环境

docker pull lmsysorg/sglang:v0.4.9.post2-rocm700-mi35x
export MODEL_DIR=< Kimi-K2-Instruct saved_path>docker run -it \    --ipc=host \    --network=host \    --privileged \    --shm-size 32\    --cap-add=CAP_SYS_ADMIN \    --device=/dev/kfd \    --device=/dev/dri \--group-add video \    --cap-add=SYS_PTRACE \    --security-opt seccomp=unconfined \    --security-opt apparmor=unconfined \    -v $MODEL_DIR:/model \    lmsysorg/sglang:v0.4.9.post2-rocm700-mi35x 

2. 启动 SGLang 模型服务(Triton attention后端)

# for the gfx950 architecture, set the kpack parameter to 1 in the triton attention kernel.cd /sgl-workspace/sglangwget https://raw.githubusercontent.com/Vivicai1005/triton_feature/main/feature.patchgit apply feature.patch
# start serving with triton backendpython3 -m sglang.launch_server --model moonshotai/Kimi-K2-Instruct --trust-remote-code --tp 8

3. 运行基准测试脚本(并发与序列长度可调)

CON="16 32 64 128"ISL=3200OSL=800for con in $CON; do    PROMPTS=$(($con * 5))    python3 -m sglang.bench_serving \        --dataset-name random \        --random-input-len $ISL \        --random-output-len $OSL \        --num-prompt $PROMPTS \        --random-range-ratio 1.0 \        --max-concurrency $condone
Part.04
总结
  • 在统一的测试设置下,AMD GPU 平台运行 Kimi-K2-Instruct 可获得良好的开箱即用体验:更快的首 Token 延迟(TTFT)、更稳定的端到端延迟(E2E)、更高的 Token 吞吐量(tok/s) 均更容易达成,尤其适合高并发推理服务场景。


  • 更大的显存容量与合理的后端配置(如attention后端、分片/张量并行策略等)是进一步提升并发能力与吞吐性能的关键。建议在自有环境中对attention后端、分片/张量并行参数以及输入/输出序列长度进行系统化的对齐与调优。


  • 以上结果仅在文中设置与样例平台下验证,实际表现依赖于具体硬件、软件与数据分布,请以本地复现为准。


Part.05
参考资源

[1] Kimi-K2-InstructHugging Face): https://huggingface.co/moonshotai/Kimi-K2-Instruct  

[2] SGLang Docker 镜像(标签):https://hub.docker.com/r/lmsysorg/sglang/tags

Part.06
免责声明

第三方内容由相应第三方直接授权并提供,非由AMD 授权或提供。所有链接的第三方内容均按“现状”提供,不附带任何形式的担保。使用第三方内容由你自行决策,AMD 在任何情况下均不对第三方内容承担责任。你需自行承担使用第三方内容可能产生的所有风险与损失。

【声明】内容源于网络
0
0
AMD开发者中心
AMD开发者中心为开发者提供工具、技术和资源,助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN,帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心,开启智能未来!
内容 65
粉丝 0
AMD开发者中心 AMD开发者中心为开发者提供工具、技术和资源,助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN,帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心,开启智能未来!
总阅读61
粉丝0
内容65