
项目地址:
https://tvm.apache.org/ffi/
Part.02
演讲者首先介绍了AGI的定义:What is AGI: A system that can do any economically valuable task at human performance or better,一个系统能够做任何有经济价值的任务,并且能够比肩人类甚至比人类做的更好,我们便称之为AGI。
其中,以Unsloth开发的实际经验来看,RL最开始被认为主要是训练,但是最终发现90%以上的时间都在进行推理,尤其是想让 RL 进一步扩大规模,那么推理可能会占用所有时间的 99.99%,而训练只会占用 0.001%的时间。因此,要使 RL 真正达到 AGI,您需要进行更好、更快的推理。
以Unsloth为例,实际上是一个训练框架。但后来我们发现推理实际上非常慢而目效率非常低,因此,最终花了很多心思去加速推理的速度。
演讲者说,虽然最近Karpathy对RL批判争议较大,说RL很草稿,但是别忘了后半句,“但其他的比RL更糟糕”,作者最终还是表示RL有至少”51%“的可能会帮助我们达成AGI的。同时作者一再强调RL后续的发展方向是:一切都是自动化的,包括问题的自动生成、奖励函数的自动生成、环境的自动生成。
Part.03
随着模型逐渐变大,网络成为瓶颈,我们必须思考如何分割模型,以及并行的进行训练?
Lianmin Zheng:目前至少有5-6维度的并行,同时也尝试着引入编译器、图编译等关键技术。
针对MoE模型,vLLM如何进行加速的?
Simon Mo: 除了EP、TP、PP等常见的并行策略外,我们也在各种分离上进行了努力,比如PD分离,把把计算敏感和内存敏感的业务进行分离;比如AF分离,根据计算密集进行分离处理;无论是集群、处理器、硬件拓扑等等算力、容量、访问速度的差异
对于超长上下文这种场景,你们是否进行了处理的?
Dmytro Dzhulgakov: 目前多agent、coder模型、网络搜索等的推理过程,会有较长的上下文,也需要在不同的维度并行。还有就是RL场景,在RL的推理或者训练中,最终会进行大量的序列并行操作。
Ray被广泛的用在了训练、推理编排以及强化学习中,您能谈谈用户是如何发展的以及使用的?
Robert Nishihara: 最开始Ray的主要场景是强化学习,很早之前我们只想着能够管理训练、推理的worker,做好环境的模拟就好;后面强化学习被广泛的用于后训练、推理,整体差不多,但细节会有很多不同。也会面临很多挑战,比如训推领域的权重快速同步,超长的部署时间等,一切都变得非常复杂。
你们最希望增加的PyTorch功能是什么?
vLLM反馈希望图模式的启动过程预热的能够加速,SGLang反馈希望PyTorch能够增加更多的NCCL等通信原语及API,Ray反馈希望对多应用形态、多硬件架构的异构性做好支持,Frame work AI的同学反馈了确定性变量效果不太好。
来自PyTorch团队的同学表示,听到这些来自顶流开源项目的问题很兴奋,我们会一个一个闭环。你最期待那个问题解决呢?
Part.04
很显然,PyTorch就成为了Meta在训推场景支持多样性算力的基石,同时通过Inductor和Triton的组合,帮助提升功能以及性能的泛化及快速的支持。

