大数跨境
0
0

2025年AI研究观察:从“大模型训练”向“实时推理优先”转折(附下载)

2025年AI研究观察:从“大模型训练”向“实时推理优先”转折(附下载) 报告研究所
2025-12-31
4
导读:深度精选研究报告,请关注报告研究报告(ID:touzireport)

英伟达拟以200亿美元收购Groq,加码实时AI推理赛道

据新浪财经报道,当地时间2025年12月24日,英伟达宣布拟以200亿美元现金收购AI芯片公司Groq,交易采用“资产许可与人才收购”(Licensing and Acqui-hire)模式。该金额刷新英伟达并购纪录,远超2019年收购Mellanox的69亿美元,并凸显AI产业正从“大模型训练为王”迈向“实时推理优先”的战略转折。

训练时代落幕,推理成为新主战场

2022至2025年初,生成式AI爆发期聚焦模型训练——OpenAIGoogle、Meta等巨头大规模采购GPGPU构建训练集群,核心指标是吞吐量(Throughput)与浮点运算能力(FLOPS)。英伟达凭借CUDA生态与硬件性能确立近乎垄断地位。

进入2025年,随着大模型逐步落地应用,计算重心向推理迁移。推理指用户调用已训练模型生成内容的过程(如DeepSeek问答),尤其在实时交互场景下,延迟(Latency)成为关键瓶颈。高频交易、语音助手、自动驾驶及具身智能等应用,对毫秒级响应提出刚性需求。

传统GPU架构在此类小批量(Batch Size=1)、低延迟场景中暴露短板:其并行设计依赖高吞吐调度,难以填满庞大核心;数据需频繁往返于计算单元与外部HBM之间,遭遇“内存墙”(Memory Wall)限制,能效与延迟表现均不理想。

Groq LPU:确定性执行架构破局推理瓶颈

Groq推出语言处理单元(LPU),采用张量流处理器(TSP)设计,基于静态调度(Static Scheduling)的VLIW变体架构,与英伟达GPU的SIMT架构形成根本差异。

LPU摒弃硬件调度器、指令解码器与动态分支预测器,将全部控制逻辑移至编译阶段。所有指令执行时间、数据路径、内存读写时序均被精确规划至每一时钟周期,实现“确定性执行”(Deterministic Execution),彻底消除硬件抖动与尾部延迟(Tail Latency)。

近存SRAM设计:80TB/s带宽+纳秒级延迟

Groq LPU彻底抛弃外部DRAM(含HBM),将约230MB SRAM直接集成于芯片Die上,属典型近存计算架构。

该设计带来四大优势: • 极致带宽:片上内存带宽达80 TB/s; • 超低延迟:SRAM访问延迟仅纳秒级,远低于HBM数十纳秒; • 成本可控:SRAM工艺良率与制造成本优于HBM堆叠; • 能效优异:读写功耗低至< 0.3pJ/bit。

容量局限与Scale-out扩展方案

单芯片230MB内存无法容纳Llama 3 70B等主流大模型(需约140GB),Groq采用大规模芯片互连(Scale-out)策略,通过模型切分与流水线并行(Pipeline Parallelism)实现扩容。

其产品矩阵呈层级化设计: • GroqCard:基础加速卡,标配PCIe Gen4 x16接口,核心为RealScale直连连接器,绕过CPU与PCIe总线,消除通信瓶颈; • GroqNode:4U服务器节点,集成8张GroqCard,通过专有背板互联,逻辑等效为1.76GB SRAM单芯片,适配中小模型部署; • GroqRack:无交换机(Switchless)集群方案,64颗芯片级联,模型按层切分、Token接力传递,支持每秒数百至千级Token生成速度

英伟达的战略意图:融合LPU芯粒重塑GPU架构

回顾历史,英伟达2019年收购Mellanox获得InfiniBand技术,成功构筑AI训练时代的网络护城河。但NVLink与InfiniBand仍基于冯·诺依曼架构,在推理场景中面临成本高、能效低等挑战。

本次收购意在强化推理竞争力。分析认为,未来GPU或将演进为混合处理器:CUDA核心负责“Prefill”(预填充)阶段——高并行、计算密集型任务;LPU芯粒则承担“Decode”(解码)阶段——串行化、带宽受限的Token生成,依托SRAM与确定性调度实现极速响应。

此外,Groq RealScale互连技术或融入NVLink演进路线,助力英伟达打造更低成本、更高密度的推理专用机架,在功耗与带宽效率维度构筑新一代竞争壁垒。低功耗、高存储带宽的推理能力,已成为AI芯片下一阶段主战场。

【声明】内容源于网络
0
0
报告研究所
各类跨境出海行业相关资讯
内容 3404
粉丝 1
报告研究所 各类跨境出海行业相关资讯
总阅读112.3k
粉丝1
内容3.4k