

AI Infra Summit | 支持AI创新蓬勃发展的基础设施

PyTorch

2025-10-22

Part.01

Keynote: Building ML Systems Foundations at the Age of AI - Tianqi Chen, NVIDIA & CMU

开场是来自CMU & NVIDIA的Tianqi Chen带来了《在AI时代构建ML系统基础》的议题：介绍了如何构建一个通用的基础，以实现这些组件之间的互操作性。

当前的ML系统逐渐复杂，前有图编译、Python框架、No-PyThon，后有KVCache、库、算子DSL等等，如何保证互操作性存在一定挑战。

Agent行为的可靠性、安全性与可复现性难以系统评估；最终提出了：TVM FFI 是一个轻量级、独立、开源的 ABI（Application Binary Interface）和 FFI（Foreign Function Interface），专为机器学习系统设计。它不依赖于特定的编译器或深度学习框架，而是作为一个底层通信协议，实现跨语言、跨工具链的无缝集成。

项目地址：

https://tvm.apache.org/ffi/

Part.02

Can Reinforcement Learning Lead to AGI? - Daniel Han, Unsloth

RL能够把我们带向AGI的世界吗？来自Unsloth的maintainer分享了这一议题。

演讲者首先介绍了AGI的定义：What is AGI: A system that can do any economically valuable task at human performance or better，一个系统能够做任何有经济价值的任务，并且能够比肩人类甚至比人类做的更好，我们便称之为AGI。

其中，以Unsloth开发的实际经验来看，RL最开始被认为主要是训练，但是最终发现90%以上的时间都在进行推理，尤其是想让 RL 进一步扩大规模，那么推理可能会占用所有时间的 99.99%，而训练只会占用 0.001%的时间。因此，要使 RL 真正达到 AGI，您需要进行更好、更快的推理。

以Unsloth为例，实际上是一个训练框架。但后来我们发现推理实际上非常慢而目效率非常低,因此，最终花了很多心思去加速推理的速度。

演讲者说，虽然最近Karpathy对RL批判争议较大，说RL很草稿，但是别忘了后半句，“但其他的比RL更糟糕”，作者最终还是表示RL有至少”51%“的可能会帮助我们达成AGI的。同时作者一再强调RL后续的发展方向是：一切都是自动化的，包括问题的自动生成、奖励函数的自动生成、环境的自动生成。

Part.03

Panel Discussion: Training and Inference at Planet Scale

随着模型逐渐变大，网络成为瓶颈，我们必须思考如何分割模型，以及并行的进行训练？

Lianmin Zheng：目前至少有5-6维度的并行，同时也尝试着引入编译器、图编译等关键技术。

针对MoE模型，vLLM如何进行加速的？

Simon Mo: 除了EP、TP、PP等常见的并行策略外，我们也在各种分离上进行了努力，比如PD分离，把把计算敏感和内存敏感的业务进行分离；比如AF分离，根据计算密集进行分离处理；无论是集群、处理器、硬件拓扑等等算力、容量、访问速度的差异

对于超长上下文这种场景，你们是否进行了处理的？

Dmytro Dzhulgakov: 目前多agent、coder模型、网络搜索等的推理过程，会有较长的上下文，也需要在不同的维度并行。还有就是RL场景，在RL的推理或者训练中，最终会进行大量的序列并行操作。

Ray被广泛的用在了训练、推理编排以及强化学习中，您能谈谈用户是如何发展的以及使用的？

Robert Nishihara: 最开始Ray的主要场景是强化学习，很早之前我们只想着能够管理训练、推理的worker，做好环境的模拟就好；后面强化学习被广泛的用于后训练、推理，整体差不多，但细节会有很多不同。也会面临很多挑战，比如训推领域的权重快速同步，超长的部署时间等，一切都变得非常复杂。

你们最希望增加的PyTorch功能是什么？

vLLM反馈希望图模式的启动过程预热的能够加速，SGLang反馈希望PyTorch能够增加更多的NCCL等通信原语及API，Ray反馈希望对多应用形态、多硬件架构的异构性做好支持，Frame work AI的同学反馈了确定性变量效果不太好。

来自PyTorch团队的同学表示，听到这些来自顶流开源项目的问题很兴奋，我们会一个一个闭环。你最期待那个问题解决呢？

Part.04

Race to Superintelligence: Building Low-Friction AI Infrastructure for a Heterogeneous Hardware - Ajit Mathews, Meta

为了支撑Facebook每天3.4亿用户，200亿+内容推荐，125亿WhatsApp消息，同时面临着多样性的负载（推荐及大模型的训练、推理）、多样性的算力（NVIDIA、AMD、MTIA）。同时，开发者也有对于可代替性、快速原型验证、性能有所期待。

因此，MTIA面临的问题就是，NV GPU有CUDA、AMD有ROCm/HIP，对于MTIA来说，Triton便成为了这一位置的理想组件。

很显然，PyTorch就成为了Meta在训推场景支持多样性算力的基石，同时通过Inductor和Triton的组合，帮助提升功能以及性能的泛化及快速的支持。

更多精彩内容可以访问会议议程链接：

https://openagentsummit2025.sched.com

作者：姜逸坤，PyTorch TAC Member

【声明】内容源于网络

PyTorch

PyTorch中文社区

内容 69

粉丝 0

PyTorch PyTorch中文社区

总阅读6

粉丝0

内容69