PyTorch 2.7发布，支持Python 3.13和3.13t，支持CUDA 12.8- 大数跨境

PyTorch深度学习

2025-04-24

695

导读：附新特性简介

PyTorch 2.7发布啦~

表 PyTorch 2025年发布计划

PyTorch 2.7 支持的Python版本

使用pip安装 PyTorch 2.7

CPU版：

pip3 install --upgrade torch

GPU版（请选择对应的CUDA版本，[CUDA12.8是本次新支持的版本]）

不需要另外安装cudnn等，安装包里已自带

pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu118

pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu126

pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu128

PyTorch 2.7 的新特性

Beta预览特性：PyTorch 2.7的Beta预览特性都是关于torch.compile() 的。具体如下：

torch.compile() 支持 Torch Function Modes：该特性使用户能够修改torch包里的函数。比如，修改torch.add的行为使得其变成定义在某种代数结构上的加法。详见教程：https://pytorch.org/tutorials/recipes/torch_compile_torch_function_modes.html
Mega Cache：用来实现端到端的可移植缓存，以减小花费在编译上的时间。具体用法为：在一台机器编译并执行模型后，调用torch.compiler.save_cache_artifacts()，得到编译好的东西（称为artifacts）。之后，用户可以在另一台机器上，使用这些artifacts调用torch.compiler.load_cache_artifacts()来预填充 torch.compile() 的缓存，从而实现快速编译。详见教程：https://pytorch.org/tutorials/recipes/torch_compile_caching_tutorial.html#torch-compile-end-to-end-caching-mega-cache

实验探索（prototype）特性：

PyTorch 原生上下文并行（Context Parallel）。这里的上下文并行是指在大模型训练过程中，通过把长输入分割到多个设备来减小激活大小的峰值。在大模型中，Transform块中的激活需要占用内存，而内存占用的峰值会限制输入序列的长度。上下文并行可以突破这样的限制。教程：https://pytorch.org/tutorials/prototype/context_parallel.html
增强英特尔 GPU 加速
FlexAttention 的新功能 —— x64 CPU上FlexAttention LLM的首个令牌处理、LLM 吞吐量模式优化以及推理的 Flex Attention。
Foreach处理：针对输入是张量列表的情况，使得torch.compile()能够并行处理，达到类似于torch.foreach的效果。
Inductor 中支持Prologue Fusion。具体而言，Prologue Fusion通过将矩阵乘法（matmul）之前的操作融合到矩阵乘法内核中以提高性能。

----
点击“阅读原文”查看 GitHub 上的发布报告（英文）。

https://github.com/pytorch/pytorch/releases/tag/v2.7.0

↓↓↓

【声明】内容源于网络

PyTorch深度学习

追踪PyTorch生态最新动向，分享人工智能深度学习前沿进展

内容 20

粉丝 0

PyTorch深度学习追踪PyTorch生态最新动向，分享人工智能深度学习前沿进展

总阅读684

粉丝0

内容20