110万美元悬赏！AMD发起全球战书：谁能打破DeepSeek与Kimi的推理速度极限？- 大数跨境

奇点智能研究院

2026-04-02

导读：面向所有热爱硬核技术的你：这一次，用代码说话，用性能封神。

责编 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

极致的推理延迟、极高的吞吐量、极大的模型规模……在大模型工程化的战场上，这曾是一个被公认为‘不可能’的三角。

回望 2025 年，DeepSeek-V3 技术报告为大家揭示了超大规模模型推理的新一代范式。通过 MLA 架构将 KV Cache 压缩 93%，配合 MTP（多 Token 预测）技术大幅提升访存效率，全球开发者见证了万亿参数模型在大规模并发下实现“高吞吐、低延迟”的工程突破。

然而，站在 2026 年的当下，依靠 FP8 精度和基础架构已难以满足爆发式的即时响应需求。在大规模真实并发的洪流前，每一毫秒的延迟缩减，都直接挂钩着数以亿计的算力成本与集群效能。

正是在这种“性能即生命”的行业背景下，🚀2026 线上黑客松：AMD E2E Model Speedrun 全球挑战赛正式拉开帷幕！

AMD 联手 GPU MODE，豪掷 110 万美元发起这场全球竞速。

寻找那些能徒手拆解底层逻辑、将 AMD 旗舰算力的每一滴潜能都榨取出来的顶级开发者。

预选赛——入围即拿 1 万美金

本次大赛采用“预选赛 + 端到端决赛大考”的双阶段赛制，每个阶段都设立了令人心动的重磅奖励。

该阶段前 10 名优胜者将获得 1 万美金，并拿到决赛入场券

三大核心内核任务（总分 3750 Pts）

参赛者需对以下三个 GPU 内核进行极限性能调优，各单项最高分值为：

硬核竞技规则

问题详情及参考实现将在 GPU MODE 网站或微信比赛群公布。

预选赛作品可通过 Popcorn CLI 提交，安装及提交说明见此链接：

👉 https://github.com/gpu-mode/popcorn-cli

决赛大考：晋级选手将瓜分 100 万美元现金大奖！

预选赛排名前 10 的顶尖团队将获得 AMD 旗舰级算力集群的操控权，开启为期一月的端到端模型性能极限压榨。

决赛大考共分为两条赛道，分别是 DeepSeek-R1-0528 (FP4+MTP) 与 Kimi K2.5 1T (FP4)。参赛选手可以同时开启双线作战，多维度压榨旗舰算力潜能，赢取总计 100 万美元的决赛大奖。

决赛核心评测逻辑：

多维评估：在 Input 8K / Output 1K 的标准测试负载下，综合考量每 GPU 总 Token 吞吐量、交互性（Interactivity）以及端到端延迟（E2E Latency）；
算力分配：支持最大 TP/EP = 8 的 8 卡节点配置，开发者可根据显存与通信效率自由调优配置；
结果为王：每个并发等级将根据吞吐量（权重 60%）与交互性（权重 40%）进行排名赋分，三大并发等级得分之和即为决赛总分。

这些数字并非仅仅为了筛选一份跑分榜单，而是要通过这场极限竞速，去回应大模型规模化落地中最硬核的工程命题。