|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
Python 3.9 -
Python 3.10 -
Python 3.11 -
Python 3.12 -
Python 3.13 和 Python 3.13t (注:Python 3.13t是去掉全局解释器锁的试验版本) [新支持版本]
pip3 install --upgrade torch
pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu118
pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu126
pip3 install --upgrade torch --index-url https://download.pytorch.org/whl/cu128
-
torch.compile() 支持 Torch Function Modes:该特性使用户能够修改torch包里的函数。比如,修改torch.add的行为使得其变成定义在某种代数结构上的加法。详见教程:https://pytorch.org/tutorials/recipes/torch_compile_torch_function_modes.html
-
Mega Cache:用来实现端到端的可移植缓存,以减小花费在编译上的时间。具体用法为:在一台机器编译并执行模型后,调用 torch.compiler.save_cache_artifacts(),得到编译好的东西(称为artifacts)。之后,用户可以在另一台机器上,使用这些artifacts调用torch.compiler.load_cache_artifacts()来预填充 torch.compile() 的缓存,从而实现快速编译。详见教程:https://pytorch.org/tutorials/recipes/torch_compile_caching_tutorial.html#torch-compile-end-to-end-caching-mega-cache
PyTorch 原生上下文并行(Context Parallel)。这里的上下文并行是指在大模型训练过程中,通过把长输入分割到多个设备来减小激活大小的峰值。在大模型中,Transform块中的激活需要占用内存,而内存占用的峰值会限制输入序列的长度。上下文并行可以突破这样的限制。教程:https://pytorch.org/tutorials/prototype/context_parallel.html
增强英特尔 GPU 加速
FlexAttention 的新功能 —— x64 CPU上FlexAttention LLM的首个令牌处理、LLM 吞吐量模式优化以及推理的 Flex Attention。
Foreach处理:针对输入是张量列表的情况,使得torch.compile()能够并行处理,达到类似于torch.foreach的效果。
Inductor 中支持Prologue Fusion。具体而言,Prologue Fusion通过将矩阵乘法(matmul)之前的操作融合到 矩阵乘法内核中以提高性能。
点击“阅读原文”查看 GitHub 上的发布报告(英文)。
https://github.com/pytorch/pytorch/releases/tag/v2.7.0
↓↓↓

