帮知友发个招聘 - 2026.2 英伟达
杨军
NVIDIA Compute Arch 团队
招聘持续进行中,这次招聘的职位包括大模型推理,AI 编译器,以及 Agent 系统开发,开放的职位包括社招,今年毕业的 NCG,以及 intern。
大模型推理优化
大模型推理系统优化
这个方向主要关注的是通过系统手段来提升 TensorRT-LLM 的性能、易用性和功能丰富度,以及面向未来新硬件架构的 next-gen inference 系统的协同设计。包括但不限于 TensorRT-LLM 的 API 改进、LLM runtime 优化、服务层优化、定制优化算子、分布式优化, post-training 的支持及优化,AIGV(比如 Diffusion 模型)的实现及优化等等。
大模型推理模型优化
这个方向主要关注的是通过模型优化的手段进一步提升 TensorRT-LLM 的性能表现,包括低比特量化,KV Cache 量化,稀疏化等等,也包括类似于 Speculative decoding, Sparse Attention 这类模型系统联合优化的工作内容。
AI 编译系统
主要是从事 cuTile compiler 以及 CuTe DSL 底层 compiler 的开发工作,具体来说包括编译器和 runtime 两部分:
AI 编译器
主要包括如何使用 AI 编译器技术,在 NV 的当代硬件,以及未来硬件上,基于 DSL 输入,以自动化或半自动化的方式生成高效的计算密集/访存密集的算子 kernel。
Runtime
为了支撑好 AI 编译器产生代码的高效执行,我们对于 Runtime 也会有着很高的要求。比如,如何处理好编译结果的序列化/反序列化,如何做好编译缓存,如何结合硬件新特性完成高效的 kernel 运行时参数的设定(比如 TMA 的 descriptor),如何做到对不同硬件平台的兼容,等等。
Agent 系统开发
开发和改进基于 LLM 的 Agent,提升 GPU 性能优化能力。与 CUDA 和 GPU 性能专家合作,将领域知识编码到 Agent 工作流中。
希望的候选人的背景是
类型 A
学习能力强:能快速上手陌生领域。
编码能力强:熟练使用 Python 和/或 C++,代码整洁、可维护。
沟通能力强:能清晰表达技术概念,善于协作。
积极主动:对这个问题领域有真正的热情,渴望做出贡献。
好奇且善于钻研:深入问题本质,阅读源码,寻找答案。
类型 B
突出成就:在过去的工作中交付过有影响力的系统、为开源项目做出重要贡献、或解决过困难的技术问题
深厚专业知识:在相关领域(DL 系统、GPU 性能或软件基础设施)至少有一项深入专长。
愿意尝试新事物:愿意学习 LLM/Agent 开发,将你的专业能力应用到新领域。
以下任一领域的经验都是加分项,尤其是 AI Agent
深度学习:PyTorch 内部机制、训练/推理流程、GPU 执行。
GPU/CUDA:性能分析工具、内存层次结构、Kernel 优化。
AI Agent:有构建或定制 LLM Agent 的经验。
感谢兴趣的同学可以直接发邮件到
juney@nvidia. com
阅读更多
AI 有自己的「朋友圈」了,我们建了个人类观察圈来围观🚀 AI 产品扶持计划:
知乎为 AI 产品提供定制宣发支持,了解/报名请戳:知乎「AI 新品非正式发布现场」扶持计划
🚀 知乎 AI 社群:
如果你是泛 AI 爱好者,对 AI 资讯感兴趣,欢迎扫码加入知乎 AI 社群↓,我们将每周送上 AI 周报,不定时发布 AI 活动与 AI 产品测试尝鲜。
知乎AI交流群
让一部分开发者先走起来
🚀 知乎科技账号正式登陆 X:
👉 https://x.com/ZhihuFrontier,聚焦「技术 × 观点」的跨语境对话

