大数跨境
0
0

从芯片到AI:为未来AI设计当下的芯片

从芯片到AI:为未来AI设计当下的芯片 智能计算芯世界
2025-11-03
0
导读:本文聚焦 AI 推理场景的全链路优化,从芯片架构设计、模型适配工具链、服务效率提升到系统级瓶颈突破,系统阐述其 AI 加速器(RNGD)的技术优势与未来规划。

本文聚焦 AI 推理场景的全链路优化,从芯片架构设计、模型适配工具链、服务效率提升到系统级瓶颈突破,系统阐述其 AI 加速器(RNGD)的技术优势与未来规划。详细内容可参阅"2025 OCP (Future Technologies合集)"。

本文所有资料都已上传至智能计算芯知识”星球AI峰会合集技术专栏

《2025 OCP/FMS全球峰会合集》
(1000+份打包链接)
1、2025 OCP Southeast Asia Tech Day(15份) 
2、2025 OCP Global Summit(37专题 400+份) 
3、2025 OCP APAC Summit(11专题 200+份) 
4、2025 OCP AI_ML IT Systems Workshop(7份) 
5、2025 FMS峰会(63专题 500+份)

一、背景:AI 硬件与模型迭代的协同挑战


1. AI 市场的快速变化

  • 模型规模激增:AI 大模型参数呈指数级增长,以 Llama 系列为例,从 2023 年 Llama 7B/13B,到 2024 年 Llama 3.1 70B、Llama 3.2 70B,再到规划中的 Llama 4,参数规模与复杂度持续突破,对硬件算力、内存带宽的需求同步飙升;
  • 硬件研发周期错配:芯片设计流程(从规格定义到量产)需 18-24 个月,而 AI 模型迭代周期仅 3-6 个月,传统硬件因 “功能固化” 难以适配快速变化的模型结构(如 Transformer 变体、注意力机制优化),需打造 “可扩展、可编程” 的架构以应对模型波动性。


二、核心硬件:RNGD 加速器的架构设计与性能优势


1. 张量收缩处理器(TCP)架构


FURIOSA 推出的 RNGD(Renegade)加速器,以 “张量收缩(Tensor Contraction)” 为核心计算原语,适配 AI workload(尤其是 Transformer 模型)的密集型矩阵运算需求,核心参数与架构亮点如下:

硬件参数
规格
技术价值
算力
512 TFLOPS(FP8 精度)
采用 8 个处理单元(PE)并行计算,FP8 精度平衡算力与模型精度,适配大模型推理场景
内存配置
48GB HBM3(2×HBM3 CoWoS-S 封装)
HBM3 内存带宽达 1.5TB/s,解决 Transformer 模型的 “内存墙” 问题,支持长序列推理(如 2048token)
片上存储与带宽
256MB SRAM,384TB/s 片上带宽
大容量 SRAM 减少对 HBM 的依赖,片上带宽是 HBM 的 256 倍,降低数据搬运延迟与功耗
功耗(TDP)
180W
能效比达 2.8 TFLOPS/W,优于同算力级别的 GPU(如 NVIDIA A100 推理能效约 1.5 TFLOPS/W)


2. 张量收缩原语的优势

张量收缩是比矩阵乘法更通用的计算原语,可直接映射 Transformer 模型中的核心操作(如缩放点积注意力、层归一化、元素 - wise 运算):

  • 减少计算冗余:以 BERT 模型为例,传统矩阵乘法需额外处理数据格式转换,而张量收缩可直接适配注意力层的多维张量运算,将计算效率提升至 99.7%(接近理论上限);
  • 简化编程模型:开发者无需手动拆解复杂算子(如多头注意力),硬件原生支持张量收缩操作,降低模型部署难度。


三、全链路优化:从模型到服务的效率提升

1. 模型适配工具链:Furiosa LLM 的灵活性


为解决多模型适配难题,FURIOSA 构建分层优化工具链,实现从 PyTorch 模型到硬件执行的自动化转换:

工具链层级
核心功能
价值
模型转换层
Torch.export 模型导出 + Furiosa Model Rewriter(精度转换)
支持 FP16/FP32→BF16/FP8/INT8/INT4 自动量化,平衡精度与算力(如 INT4 量化后算力提升 4 倍,精度损失 < 2%)
中间表示(IR)层
Furiosa Generator 生成硬件可执行的 Lowered IR
统一不同模型的计算图表示,自动优化算子融合(如注意力 + 层归一化融合)、内存布局,减少指令数
运行时(Runtime)层
Request Pool 请求池 + Scheduler 调度器
支持动态请求管理,适配推理场景的 “突发流量”,避免资源闲置


2. AI 服务效率:解决自回归推理的核心痛点


大语言模型(LLM)推理采用 “自回归生成” 模式(逐 token 生成),存在三大效率瓶颈,FURIOSA 通过针对性策略优化:

痛点
优化策略
效果
计算 / IO 浪费
连续批处理(Continuous Batching)
:将多个推理请求动态合并为批,避免单请求独占硬件资源
批处理效率提升 3-5 倍,在 LLaMA 8B 模型上,并发请求数从 16 增至 128 时,吞吐量(TPS)提升 7.95 倍
内存浪费
分页注意力(Paged Attention)
:将注意力权重按 “页” 管理,复用重复的键值对(KV Cache)
内存利用率提升 40%,支持更长上下文(如从 1024token 扩展至 4096token)而不增加内存占用
请求等待延迟
分块预填充(Chunked Prefill)
:将长序列输入(如 1024token)拆分为小块预计算,并行生成
预填充阶段延迟降低 50%,避免单长序列请求阻塞批处理队列


四、系统级突破:解决多卡协同的瓶颈

1. 多卡服务的核心瓶颈


当 AI 服务需多 RNGD 卡并行(如 LLaMA 70B 模型推理需 4-8 卡)时,系统级瓶颈集中在PCIe 互联与 P2P(Peer-to-Peer)通信

  • CPU 路由 overhead:传统多卡架构中,卡间数据传输需经 CPU 转发,导致带宽损失(仅为理论 PCIe 带宽的 60%-70%),且延迟增加;
  • PCIe 交换机配置限制:多交换机拓扑下,卡间通信需跨交换机转发,缺乏直接互联通道,并行效率下降。


2. 针对性优化方案

  • 非透明桥(NTB)技术:在多交换机系统中,通过 NTB 实现跨交换机的直接 P2P 通信,绕过 CPU 路由,将卡间通信带宽提升至理论值的 90% 以上,延迟降低 40%;
  • 拓扑与硬件适配:优化 PCIe 交换机布局,确保每张 RNGD 卡的 PCIe 链路配置一致(如支持 ACS/ATS 协议),避免因 CPU 行为差异导致的通信性能波动;
  • P2P 性能验证:在 8 卡 RNGD 集群中,采用 NTB 互联后,LLaMA 70B 模型的并行推理吞吐量较 CPU 转发方案提升 2.3 倍,功耗效率(TPS/W)提升 1.8 倍。


五、性能成果:近四个月的效率飞跃


通过硬件架构优化、工具链迭代与服务策略升级,RNGD 加速器在 LLaMA 系列模型上的性能持续突破:

  • LLaMA 8B 模型:2025 年 3 月至 7 月,在并发请求数 16-128 的场景下,吞吐量(TPS)提升 7.95 倍,功耗效率(TPS/W)从 1.2 提升至 9.5,远超同类竞争方案;
  • LLaMA 70B 模型:在 32 并发请求下,功耗效率达 6.8 TPS/W,较传统 GPU 方案(如 NVIDIA A100)提升 2.5 倍,且支持动态批处理,避免长序列推理时的资源闲置。


六、未来规划:下一代芯片与生态方向

1. 硬件规格升级需求


随着模型参数向千亿级(如 1T 参数)突破,单芯片已无法支撑完整模型推理,需从 “单卡” 向 “多节点集群” 扩展,下一代硬件需解决三大问题:

  • 高功率封装:规划支持 1.4-1.5kW 功率的封装方案(当前 RNGD 为 180W),满足多芯片集成(如 4×RNGD 芯粒)的算力需求;
  • 高带宽互联:需 OAM(Open Accelerator Module)规范升级,支持 200Gbps 以上的节点间互联带宽(当前为 100Gbps),适配跨节点模型分片推理;
  • 热管理创新:联合生态伙伴开发液冷、均热板等新型散热方案,解决高功率封装的热密度问题(目标热密度 > 500W/in²)。


2. 节点间交换架构


  • 协议与硬件缺失:当前缺乏支持 “超以太网(Ultra-Ethernet)” 与 UALink 协议的商用交换组件,无法满足多节点集群的低延迟、高并行通信需求,FURIOSA 计划联合交换机厂商开发定制化交换芯片;
  • 模型分片策略:针对千亿级模型,研发 “模型层间分片 + 数据分片” 混合策略,结合 RNGD 的 P2P 通信能力,实现跨节点算力与内存的高效协同,避免单节点成为性能瓶颈。


总结


FURIOSA 通过 “TCP 架构硬件 + 全链路工具链 + 系统级优化” 的三位一体方案,解决了 AI 推理场景的 “算力不足、内存受限、服务低效” 三大核心问题,其 RNGD 加速器在 LLaMA 系列模型上的性能与能效优势已得到验证。未来,随着模型向千亿级参数、多节点集群方向发展,FURIOSA 将聚焦高功率封装、高带宽互联、定制化交换架构,进一步打通 “芯片、节点、集群” 的协同链路,为超大规模 AI 推理提供更高效的硬件基础与工程方案。

AI/GPU/CPU芯片专题资料都已上传至“智能计算芯知识”星球。更多芯片资料请参阅“《105+份GPU芯片技术及白皮书合集》”,“《100+份AI芯片技术修炼合集》”,“《42+份半导体芯片图谱》”,“《70+份半导体研究框架》”等。

下载链接
《2025 OCP APAC Summit(Storage合集)
2025 OCP APAC Summit(Rack & Power合集下)
2025 OCP APAC Summit(Rack & Power合集上)
2025 OCP APAC Summit(Server合集下)
2025 OCP APAC Summit(Server合集上)
OCP2025大会资料合集(4)
OCP2025大会资料合集(3)
OCP2025大会资料合集(2)
OCP2025大会资料合集(1)
......
重磅合集
1、70+篇半导体行业“研究框架”合集
2、56+份智能网卡和DPU合集
3、14份半导体“AI的iPhone时刻”系列合集
4、21份走进“芯”时代系列深度报告合集
5、800+份重磅ChatGPT专业报告
6、105份GPU技术及白皮书汇总
7、11+份AI的裂变时刻系列报告

8、3+份技术系列基础知识详解(星球版)

9、12+份Manus技术报告合集

10、100+份AI芯片修炼合集

11、100+份AI Agent技术报告合集

… …


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


【声明】内容源于网络
0
0
智能计算芯世界
聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
内容 557
粉丝 0
智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
总阅读40
粉丝0
内容557