

探索PyTorch全链路性能极限：PyTorch Meetup北京站回顾

PyTorch

2025-09-20

导读：技术干货拉满，AI创新火花持续绽放！

2025年9月20日，PyTorch Meetup Beijing 在北京海淀圆满落幕，并通过PyTorch知乎、黄大年茶思屋、码云Gitee、蔻享等多平台同步线上直播。

本次活动聚焦大模型训练、推理优化、智能体框架与异构计算等前沿议题，吸引了百余名来自全国各地的 AI 研究者、工程师与技术爱好者，共同探索PyTorch全链路性能极限，为现场及线上开发者带来了一场深度技术盛宴。

# Opening：连接全球技术生态

PyTorch Ambassador 宗泽升在开场中介绍了PyTorch全球大使项目的蓬勃发展。目前37位大使遍布19个国家，共同推动PyTorch在学术与工业界的应用。他还预告了即将到来的PyTorch Conference 2025及培训认证计划，为开发者勾勒出PyTorch生态的全球图景与成长路径。

# DeepSpeed ：大模型训练的工程基石

英特尔（中国）有限公司高级软件工程师同时也是DeepSpeed TSC Committer的马国凯率先开讲。他的议题DeepSpeed -- Scalable, Memory Efficient and High Throughput Distributed Large Foundation Model Training Engine系统性地介绍了 DeepSpeed 的核心技术架构的最新进展。从ZeRO内存优化到AutoTP自动张量并行，DeepSpeed正在通过抽象加速器接口构建跨硬件统一生态，让大模型训练变得更加高效和普惠。

# ROLL框架：智能体训练的系统级创新

来自ROLL 开源社区的Core Maintainer熊绍潘带来议题“ROLL：一种面向 Agentic 场景的生产级大规模强化学习训练框架“，展示了面向Agentic场景的强化学习训练框架。通过异步并行架构和EnvManager设计，ROLL成功解决了多任务训练与多轮交互的调试难题。该框架在WebShop等复杂交互环境中取得了显著效果，任务成功率从37%提升至85%以上，为智能体应用提供了稳定高效的基础设施，极大降低了开发者的调试成本。

# 昇腾推理优化：性能极致的工程实践

无问芯穹推理技术总监毛秋力分享了基于昇腾硬件的推理优化实践。FlashOverlap计算通信重叠技术与Semi-PD异构架构的创新结合，在DeepSeek-V3等模型中实现了1.7倍吞吐提升和60%延迟降低。这些优化技术有效解决了推理过程中的计算瓶颈和存储挑战，为大规模推理服务部署提供了可靠的技术保障。

# torch_npu + aclGraph：软硬协同新范式

来自华为的主任工程师秦传瑜在议题“torch_npu 的设计哲学与 aclGraph 高性能原理”中深入讲解了昇腾处理器上的PyTorch生态支持方案。通过torch_npu的接口兼容性与aclGraph的图优化能力，在保持开发习惯的同时实现30%以上的性能提升。该方案采用分层优化策略，支持动静结合的编译方式，为开发者提供了从模型迁移到性能调优的完整工具链。

# FlagGems：通用算子的高性能解决方案

智源研究院高性能算子库工程师的田津津带来议题“高性能探索：从 Triton 算子到高性能通用算子 FlagGems“，分享了FlagGems算子库的设计理念。基于"单一接口，多种后端"的架构，为多种硬件平台提供高性能算子支持，大幅降低底层优化成本。该库充分利用Triton等现代GPU编程语言的优势，实现了算子的自动生成和优化，显著提升了开发效率。