GTC24 | 锁定 3 月 19 日 China AI Day：LLM 云上工具链中文演讲！- 大数跨境

GTC24 | 锁定 3 月 19 日 China AI Day：LLM 云上工具链中文演讲！

紫光数码企业解决方案

2024-03-07

导读：两周倒计时，预约观看 China AI Day，共探“云计算+LLM”！

什么是 China AI Day 线上专场？

GTC 2024 大会 China AI Day 线上专场，是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场，将于 3 月 19 日上午 10:00 在线举办。China AI Day 将以“大语言模型（LLM）”为主题，共分为四大专题：LLM AI Infra、LLM 云上工具链、LLM 推理及性能分析、LLM 应用，共计 13 场精彩演讲。将深入探讨 LLM 性能的极致优化，覆盖架构、训练、推理、量化、AI 工作流 RAG 等多个维度，并为您详细呈现 LLM 在互联网核心应用、芯片设计等领域的案例。

专场为观众提供专属福利：3 月 24 日前，上线观看 China AI Day 演讲，即可获得 NVIDIA 深度学习培训中心（DLI）大语言模型课程 75 折优惠码，请看文末具体规则解释。

扫码注册

预约观看 China AI Day 的

LLM 云上工具链线上演讲

GTC 2024 大会 China AI Day

线上专场议程一览

LLM 云上工具链专场介绍

LLM 云上工具链是为高效开发、训练和部署 LLM 而构建的一系列云端服务和工具。它能够将数据处理、模型训练、资源调度、模型优化与部署等多个环节，做模块化、自动化和云端化管理，并保护数据和隐私安全，从而为用户提供云上弹性、海量的资源，并降低底层技术依赖，加速研发效率。China AI Day 的 “LLM 云上工具链” 专题演讲邀请来自阿里云和腾讯云的三位专家，分享结合 NVIDIA AI 软硬件技术栈来加速 LLM 的云上构建、训练、推理，以及资源优化，并会介绍当前业界关注的 MoE LLM 的云上优化成果。本次专场将涵盖三场技术演讲：

10:00 - 10:25

TorchAcc: 基于 TorchXLA 的分布式训练框架

会议代码：SE63231

演讲人：林伟，阿里云研究员，阿里云人工智能平台 PAI 技术负责人

演讲简介：

TorchAccelerator（简称 TorchAcc）是一个分布式训练加速框架，它能在 PyTorch 上将动态执行转化为基于图的中间表示。通过编译优化和手动算子优化，TorchAcc 可以有效加速 PyTorch 上的模型训练任务，并结合 NVIDIA CUTLASS 等计算库实现模型训练过程中 GPU 计算资源的高效利用。本次演讲将介绍围绕 TorchAcc 的工作内容，包括分布式策略、内存优化、运行时优化以及网络优化。

10:30 - 10:55

TACO-LLM：突破自回归限制，实现高效序列维并行推理的大模型优化方案

会议代码：SE63221

演讲人：叶帆，腾讯云异构计算专家工程师，异构研发负责人

演讲简介：

AI 发展面临算力绝对数量紧缺、受软件因素制约已有算力难以发挥到极致，以及 AI 中间层软件缺乏通用性及易用性制约应用快速接入算力等多方面困难。而腾讯云异构智算+TACO-LLM 为算力的有效供给提供了有力保障。

过去，行业里使用不同模型来实现不同任务。任务与算法高度绑定，只能进行任务与算法的协同设计，落到系统上，中间层要做很多不同的工作。现在，通过下游任务微调，同一个大语言模型可以实现不同任务。由于大模型高度统一了基础模型结构，我们得以专注于一个更狭窄的领域，应用、算法、系统之间可以进行协同优化，集中有限投入，应用的范围足够广阔。虽然不同公司的模型训练数据可能不同，但模型结构相似，足以使得好的中间层工具，可以最大程度发挥不同硬件的算力。

TACO-LLM 正是在这个背景下针对大模型重新设计的一整套优化加速及运行时的推理引擎。TACO-LLM serving 不仅支持普通格式的输出，也支持 OpenAI 格式的输出。用户可以使用诸如 LangChain 的组件快速将后端部署为 ChatOpenAI 的类型，无缝衔接到已有的应用流中，实现快速对接算力上线。

在优化设计上，社区的 vLLM 提出了基于 Paged Attention 的 continuous batching 的机制，极大地提升了推理效率，进一步释放了芯片算力，并优化了显存的编排与资源利用。但是大模型的自回归属性仍然极大影响了 MFU，距离充分释放 GPU 算力仍有极大空间。此外，当前几种不同的 Paged Attention 的实现在片上资源，例如 SRAM 的利用上，对越来越重要的长序列模型不够友好，仍很大程度上限制了算力的发挥。

TACO-LLM 从根本上打破了模型自回归的限制，在 Paged Attention 基础上实现了序列维并行推理，我们称之为 TurboSeq Paged Attention。我们重新设计了 Attention 计算的并行模式和流水编排，对片上资源的利用实现了常数复杂度，从而理论上可以支持任意长序列的高性能推理，极大提高了长序列模型的算力利用率。在运行时的调度和迭代编排上，我们也做了大量的优化，以保证计算的并发性，减少不必要的同步。

我们相信，依托腾讯云坚实可靠的 AI 基础设施硬件和自研 AI 基础软件，可以有效为市场提供多元、高效、优质的算力，为行业发展注入强劲动力。

11:00 - 11:25

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

会议代码：SE63222

演讲人：黄俊，阿里云资深算法专家

演讲简介：

以 ChatGPT 为代表的大语言模型（LLM）是当下实现通用人工智能最有潜力的技术路线。大模型在展现出惊人效果的同时，其高昂的训练和推理成本，一直是个巨大的挑战。模型稀疏化能有效降低训练和推理过程中的计算和存储消耗。近期以 Mixtral 为代表的 MoE（多专家混合）大模型，证明了稀疏 MoE 技术路线能够大幅降低训练和推理计算量，提升推理速度，同时模型效果能达到甚至超过同等规模的稠密模型。本次报告主要介绍阿里云人工智能平台 PAI (Platform of AI) 和 NVIDIA Megatron 在大规模 MoE 训练方面的合作研究工作，基于 Megatron Core 框架，实现了 MoE 训练工具，验证了工具的稳定性和收敛性，并在下游任务上验证了 MoE 大模型训练的效果。基于 PAI-Megatron-Patch 模型转换库，PAI 将上述 MoE 模型训练工具集成到阿里云灵骏大模型产品，极大地降低了用户在云端构建和优化 AI 模型的技术门槛。