大数跨境

知友招聘丨英伟达社招/NCG/intern (上海/北京)

知友招聘丨英伟达社招/NCG/intern (上海/北京) 知乎AI先行者
2026-02-02
2
导读:大模型推理、AI 编译器、Agent 系统开发

帮知友发个招聘 - 2026.2  英伟达

英伟达,大模型推理、AI 编译器、Agent 系统开发,社招/NCG/intern 招聘 (上海/北京)

杨军

NVIDIA Compute Arch 团队

招聘持续进行中,这次招聘的职位包括大模型推理,AI 编译器,以及 Agent 系统开发,开放的职位包括社招,今年毕业的 NCG,以及 intern。

大模型推理优化

大模型推理系统优化

这个方向主要关注的是通过系统手段来提升 TensorRT-LLM 的性能、易用性和功能丰富度,以及面向未来新硬件架构的 next-gen inference 系统的协同设计。包括但不限于 TensorRT-LLM 的 API 改进、LLM runtime 优化、服务层优化、定制优化算子、分布式优化, post-training 的支持及优化,AIGV(比如 Diffusion 模型)的实现及优化等等。

大模型推理模型优化

这个方向主要关注的是通过模型优化的手段进一步提升 TensorRT-LLM 的性能表现,包括低比特量化,KV Cache 量化,稀疏化等等,也包括类似于 Speculative decoding, Sparse Attention 这类模型系统联合优化的工作内容。


AI 编译系统

主要是从事 cuTile compiler 以及 CuTe DSL 底层 compiler 的开发工作,具体来说包括编译器和 runtime 两部分:

AI 编译器

主要包括如何使用 AI 编译器技术,在 NV 的当代硬件,以及未来硬件上,基于 DSL 输入,以自动化或半自动化的方式生成高效的计算密集/访存密集的算子 kernel。

Runtime

为了支撑好 AI 编译器产生代码的高效执行,我们对于 Runtime 也会有着很高的要求。比如,如何处理好编译结果的序列化/反序列化,如何做好编译缓存,如何结合硬件新特性完成高效的 kernel 运行时参数的设定(比如 TMA 的 descriptor),如何做到对不同硬件平台的兼容,等等。


Agent 系统开发

开发和改进基于 LLM 的 Agent,提升 GPU 性能优化能力。与 CUDA 和 GPU 性能专家合作,将领域知识编码到 Agent 工作流中。

希望的候选人的背景是

类型 A

学习能力强:能快速上手陌生领域。

编码能力强:熟练使用 Python 和/或 C++,代码整洁、可维护。

沟通能力强:能清晰表达技术概念,善于协作。

积极主动:对这个问题领域有真正的热情,渴望做出贡献。

好奇且善于钻研:深入问题本质,阅读源码,寻找答案。

类型 B

突出成就:在过去的工作中交付过有影响力的系统、为开源项目做出重要贡献、或解决过困难的技术问题

深厚专业知识:在相关领域(DL 系统、GPU 性能或软件基础设施)至少有一项深入专长。

愿意尝试新事物:愿意学习 LLM/Agent 开发,将你的专业能力应用到新领域。

以下任一领域的经验都是加分项,尤其是 AI Agent

  • 深度学习:PyTorch 内部机制、训练/推理流程、GPU 执行。

  • GPU/CUDA:性能分析工具、内存层次结构、Kernel 优化。

  • AI Agent:有构建或定制 LLM Agent 的经验。


感谢兴趣的同学可以直接发邮件

juney@nvidia. com



阅读更多

AI 有自己的「朋友圈」了,我们建了个人类观察圈来围观
一行代码将 arXiv 论文翻译成中文版

🚀 AI 产品扶持计划:

知乎为 AI 产品提供定制宣发支持,了解/报名请戳:知乎「AI 新品非正式发布现场」扶持计划

🚀 知乎 AI 社群:

如果你是泛 AI 爱好者,对 AI 资讯感兴趣,欢迎扫码加入知乎 AI 社群↓,我们将每周送上 AI 周报,不定时发布 AI 活动与 AI 产品测试尝鲜。








知乎AI交流群








让一部分开发者先走起来

🚀 知乎科技账号正式登陆 X:

👉 https://x.com/ZhihuFrontier,聚焦「技术 × 观点」的跨语境对话

【声明】内容源于网络
0
0
知乎AI先行者
在智能之海寻找信标,航向未来。
内容 174
粉丝 0
知乎AI先行者 在智能之海寻找信标,航向未来。
总阅读38
粉丝0
内容174