知友招聘丨英伟达社招/NCG/intern (上海/北京)- 大数跨境

首页

知友招聘丨英伟达社招/NCG/intern (上海/北京)

知乎AI先行者

2026-02-02

导读：大模型推理、AI 编译器、Agent 系统开发

帮知友发个招聘 - 2026.2 英伟达

英伟达，大模型推理、AI 编译器、Agent 系统开发，社招/NCG/intern 招聘 (上海/北京)

杨军

NVIDIA Compute Arch 团队

招聘持续进行中，这次招聘的职位包括大模型推理，AI 编译器，以及 Agent 系统开发，开放的职位包括社招，今年毕业的 NCG，以及 intern。

大模型推理优化

大模型推理系统优化

这个方向主要关注的是通过系统手段来提升 TensorRT-LLM 的性能、易用性和功能丰富度，以及面向未来新硬件架构的 next-gen inference 系统的协同设计。包括但不限于 TensorRT-LLM 的 API 改进、LLM runtime 优化、服务层优化、定制优化算子、分布式优化， post-training 的支持及优化，AIGV(比如 Diffusion 模型）的实现及优化等等。

大模型推理模型优化

这个方向主要关注的是通过模型优化的手段进一步提升 TensorRT-LLM 的性能表现，包括低比特量化，KV Cache 量化，稀疏化等等，也包括类似于 Speculative decoding, Sparse Attention 这类模型系统联合优化的工作内容。

AI 编译系统

主要是从事 cuTile compiler 以及 CuTe DSL 底层 compiler 的开发工作，具体来说包括编译器和 runtime 两部分：

AI 编译器

主要包括如何使用 AI 编译器技术，在 NV 的当代硬件，以及未来硬件上，基于 DSL 输入，以自动化或半自动化的方式生成高效的计算密集/访存密集的算子 kernel。

Runtime

为了支撑好 AI 编译器产生代码的高效执行，我们对于 Runtime 也会有着很高的要求。比如，如何处理好编译结果的序列化/反序列化，如何做好编译缓存，如何结合硬件新特性完成高效的 kernel 运行时参数的设定（比如 TMA 的 descriptor)，如何做到对不同硬件平台的兼容，等等。

Agent 系统开发

开发和改进基于 LLM 的 Agent，提升 GPU 性能优化能力。与 CUDA 和 GPU 性能专家合作，将领域知识编码到 Agent 工作流中。

希望的候选人的背景是

类型 A

学习能力强：能快速上手陌生领域。

编码能力强：熟练使用 Python 和/或 C++，代码整洁、可维护。

沟通能力强：能清晰表达技术概念，善于协作。

积极主动：对这个问题领域有真正的热情，渴望做出贡献。

好奇且善于钻研：深入问题本质，阅读源码，寻找答案。

类型 B

突出成就：在过去的工作中交付过有影响力的系统、为开源项目做出重要贡献、或解决过困难的技术问题

深厚专业知识：在相关领域（DL 系统、GPU 性能或软件基础设施）至少有一项深入专长。

愿意尝试新事物：愿意学习 LLM/Agent 开发，将你的专业能力应用到新领域。

以下任一领域的经验都是加分项，尤其是 AI Agent

深度学习：PyTorch 内部机制、训练/推理流程、GPU 执行。
GPU/CUDA：性能分析工具、内存层次结构、Kernel 优化。
AI Agent：有构建或定制 LLM Agent 的经验。

感谢兴趣的同学可以直接发邮件到

juney@nvidia. com

AI 有自己的「朋友圈」了，我们建了个人类观察圈来围观

一行代码将 arXiv 论文翻译成中文版

🚀 AI 产品扶持计划：

知乎为 AI 产品提供定制宣发支持，了解/报名请戳：知乎「AI 新品非正式发布现场」扶持计划

🚀 知乎 AI 社群：

如果你是泛 AI 爱好者，对 AI 资讯感兴趣，欢迎扫码加入知乎 AI 社群↓，我们将每周送上 AI 周报，不定时发布 AI 活动与 AI 产品测试尝鲜。

知乎AI交流群

让一部分开发者先走起来

🚀 知乎科技账号正式登陆 X：

👉 https://x.com/ZhihuFrontier，聚焦「技术 × 观点」的跨语境对话

【声明】内容源于网络

知乎AI先行者

在智能之海寻找信标，航向未来。

内容 174

粉丝 0

知乎AI先行者在智能之海寻找信标，航向未来。

总阅读38

粉丝0

内容174