大数跨境
0
0

AI Infra Summit | 支持AI创新蓬勃发展的基础设施

AI Infra Summit | 支持AI创新蓬勃发展的基础设施 PyTorch
2025-10-22
0
Part.01
Keynote: Building ML Systems Foundations at the Age of AI - Tianqi Chen, NVIDIA & CMU
开场是来自CMU & NVIDIA的Tianqi Chen带来了《在AI时代构建ML系统基础》的议题:介绍了如何构建一个通用的基础,以实现这些组件之间的互操作性。
当前的ML系统逐渐复杂,前有图编译、Python框架、No-PyThon,后有KVCache、库、算子DSL等等,如何保证互操作性存在一定挑战。
Agent行为的可靠性、安全性与可复现性难以系统评估;最终提出了:TVM FFI 是一个轻量级、独立、开源的 ABI(Application Binary Interface)和 FFI(Foreign Function Interface),专为机器学习系统设计。它不依赖于特定的编译器或深度学习框架,而是作为一个底层通信协议,实现跨语言、跨工具链的无缝集成。

项目地址:

https://tvm.apache.org/ffi/

Part.02

Can Reinforcement Learning Lead to AGI? - Daniel Han, Unsloth
RL能够把我们带向AGI的世界吗?来自Unsloth的maintainer分享了这一议题。

演讲者首先介绍了AGI的定义:What is AGI: A system that can do any economically valuable task at human performance or better,一个系统能够做任何有经济价值的任务,并且能够比肩人类甚至比人类做的更好,我们便称之为AGI。


其中,以Unsloth开发的实际经验来看,RL最开始被认为主要是训练,但是最终发现90%以上的时间都在进行推理,尤其是想让 RL 进一步扩大规模,那么推理可能会占用所有时间的 99.99%,而训练只会占用 0.001%的时间。因此,要使 RL 真正达到 AGI,您需要进行更好、更快的推理。


以Unsloth为例,实际上是一个训练框架。但后来我们发现推理实际上非常慢而目效率非常低,因此,最终花了很多心思去加速推理的速度。

演讲者说,虽然最近Karpathy对RL批判争议较大,说RL很草稿,但是别忘了后半句,“但其他的比RL更糟糕”,作者最终还是表示RL有至少”51%“的可能会帮助我们达成AGI的。同时作者一再强调RL后续的发展方向是:一切都是自动化的,包括问题的自动生成、奖励函数的自动生成、环境的自动生成。

Part.03

Panel Discussion: Training and Inference at Planet Scale

随着模型逐渐变大,网络成为瓶颈,我们必须思考如何分割模型,以及并行的进行训练?

Lianmin Zheng:目前至少有5-6维度的并行,同时也尝试着引入编译器、图编译等关键技术。


针对MoE模型,vLLM如何进行加速的?

Simon Mo: 除了EP、TP、PP等常见的并行策略外,我们也在各种分离上进行了努力,比如PD分离,把把计算敏感和内存敏感的业务进行分离;比如AF分离,根据计算密集进行分离处理;无论是集群、处理器、硬件拓扑等等算力、容量、访问速度的差异


对于超长上下文这种场景,你们是否进行了处理的?

Dmytro Dzhulgakov: 目前多agent、coder模型、网络搜索等的推理过程,会有较长的上下文,也需要在不同的维度并行。还有就是RL场景,在RL的推理或者训练中,最终会进行大量的序列并行操作。


Ray被广泛的用在了训练、推理编排以及强化学习中,您能谈谈用户是如何发展的以及使用的?

Robert Nishihara: 最开始Ray的主要场景是强化学习,很早之前我们只想着能够管理训练、推理的worker,做好环境的模拟就好;后面强化学习被广泛的用于后训练、推理,整体差不多,但细节会有很多不同。也会面临很多挑战,比如训推领域的权重快速同步,超长的部署时间等,一切都变得非常复杂。


你们最希望增加的PyTorch功能是什么?

vLLM反馈希望图模式的启动过程预热的能够加速,SGLang反馈希望PyTorch能够增加更多的NCCL等通信原语及API,Ray反馈希望对多应用形态、多硬件架构的异构性做好支持,Frame work AI的同学反馈了确定性变量效果不太好。


来自PyTorch团队的同学表示,听到这些来自顶流开源项目的问题很兴奋,我们会一个一个闭环。你最期待那个问题解决呢?

Part.04

Race to Superintelligence: Building Low-Friction AI Infrastructure for a Heterogeneous Hardware - Ajit Mathews, Meta
为了支撑Facebook每天3.4亿用户,200亿+内容推荐,125亿WhatsApp消息,同时面临着多样性的负载(推荐及大模型的训练、推理)、多样性的算力(NVIDIA、AMD、MTIA)。同时,开发者也有对于可代替性、快速原型验证、性能有所期待。
因此,MTIA面临的问题就是,NV GPU有CUDA、AMD有ROCm/HIP,对于MTIA来说,Triton便成为了这一位置的理想组件。

很显然,PyTorch就成为了Meta在训推场景支持多样性算力的基石,同时通过Inductor和Triton的组合,帮助提升功能以及性能的泛化及快速的支持。


更多精彩内容可以访问会议议程链接:
https://openagentsummit2025.sched.com
作者:姜逸坤,PyTorch TAC Member


【声明】内容源于网络
0
0
PyTorch
PyTorch中文社区
内容 69
粉丝 0
PyTorch PyTorch中文社区
总阅读6
粉丝0
内容69