大数跨境
0
0

地表最强高性能RISC-V内核-TT-Ascalon正式发布

地表最强高性能RISC-V内核-TT-Ascalon正式发布 处理器+AI知识星球
2025-12-04
0
导读:在今天中国上海举行的Tenstorrent新品发布会上,Jim Keller发表了视频演讲,其所在AI初创公司Tenstorrent宣布其高性能RISC-V CPU——TT-Ascalon™现已正式上

更多精彩,请点击上方蓝字关注我

在今天中国上海举行的Tenstorrent新品发布会上,Jim Keller发表了视频演讲,其所在AI初创公司Tenstorrent宣布其高性能RISC-V CPU——TT-Ascalon™现已正式上市。

提到芯片圈的 “传奇之手”,Jim Keller 的名字足以让行业侧目 —— 从 AMD Zen 架构逆袭英特尔,到苹果 A 系列芯片开启移动算力革命,再到特斯拉 Autopilot 芯片定义自动驾驶硬件标准,他每一次出手都在改写赛道格局。如今,这位 “硅界仙人” 掌舵的 Tenstorrent,带着一款名为Ascalon的 RISC-V CPU 正式登场,不仅刷新了 RISC-V 的性能天花板,更试图打破 x86 与 Arm 对高端芯片市场的垄断。

先懂背景:Tenstorrent 为何能让 Jim Keller 深耕 RISC-V?

在聊 Ascalon 之前,必须先搞懂 Tenstorrent 这家公司的 “硬核基因”。2016 年成立的 Tenstorrent,最初以 AI 加速器为起点,但在 2020 年 Jim Keller 加入后,迅速将战略重心转向 “RISC-V CPU+AI 加速器” 的双线布局 —— 这背后,是团队对 “开源算力自由” 的执念。

Tenstorrent 的核心团队堪称 “梦之队”:

  • Jim Keller(CEO):不用多言的芯片传奇,曾主导 AMD Zen、苹果 A4/A5、特斯拉 Autopilot 芯片,深谙高性能架构设计的精髓,加入后直接推动 RISC-V 高端化进程;

  • Wei-Han Lien(首席 CPU 架构师):苹果 M1 芯片核心设计者之一,曾参与 A6、A7(全球首款 64 位 Arm SoC)研发,将苹果 “超宽架构 + 高能效” 的设计哲学注入 Ascalon;

  • Raja Koduri(董事会成员):前 Intel、AMD GPU 核心负责人,虽不直接参与产品研发,却为 Tenstorrent 的战略方向(尤其是 AI 与图形计算融合)提供关键指导。

更关键的是,Tenstorrent 选择 RISC-V 并非偶然。正如 Wei-Han Lien 在 RISC-V Summit 上透露的:2021 年团队曾请求 Arm 支持 AI 所需的 BF16 数据类型,得到的答复是 “需 2 年内部讨论”;而开源的 RISC-V 让 SiFive 仅用极短时间就完成定制 —— 这种 “灵活响应需求” 的特性,恰好契合 AI 与 HPC(高性能计算)领域 “快速迭代” 的刚需,也成为 Tenstorrent 押注 RISC-V 的核心原因

直击核心:Ascalon 凭什么刷新 RISC-V 性能纪录?

Ascalon 的定位很明确:不是 “嵌入式级” 的小打小闹,而是直接对标 x86/Arm 高端 CPU 的 RISC-V 旗舰。从技术参数到实际表现,它都交出了足以颠覆行业认知的答卷。

1. 架构设计:苹果 “超宽基因” 的 RISC-V 复刻

Ascalon 最亮眼的技术标签,是其8 宽解码乱序执行架构—— 这一设计直接对标苹果 M1 的 Firestorm 核心,也是目前 RISC-V 领域首个实现该规格的 CPU。

具体来看:

  • 前端能力:每周期可解码 8 条 RISC-V 指令,远超主流 x86 芯片(AMD Zen4 为 4 宽、Intel Golden Cove 为 6 宽),配合 32 字节 / 周期的指令缓存取指速度,能高效喂饱后端执行单元;

  • 执行单元配置:6 个整数 ALU(算术逻辑单元)、2 个分支执行单元,可快速处理整数运算与程序跳转;2 个 256bit 矢量 / FPU 单元,既支持浮点计算,又能高效处理 AI 所需的向量运算,兼容 RVV1.0(RISC-V 矢量扩展)规范;

  • 存储性能:虽未公开完整缓存参数,但从技术文档可知,其 L1 数据缓存容量达 128KB(8 路组相联),与苹果 M1 保持一致,配合 “先进 TAGE 分支预测器” 和深度加载 / 存储队列,大幅降低指令延迟,提升 IPC(每时钟周期指令数)。

Wei-Han Lien 曾直言:“Ascalon 的设计思路,就是让 RISC-V 拥有苹果芯片级的能效比与性能密度。” 从实际表现看,这一目标显然达成了 —— 在三星 SF4X 工艺下,Ascalon 主频可稳定突破 2.5GHz,而其乱序执行深度(推测与 M1 接近的 600 + 指令),让它即便在中低频下也能输出高算力。

2. 性能实测:碾压同级 RISC-V,直逼高端 x86

衡量 CPU 性能的核心指标,绕不开业界公认的 SPEC CPU 基准测试。Ascalon 的测试数据一公布,就让整个 RISC-V 圈沸腾:

  • 单核整数性能:22 SPECint®2006/GHz,远超开芯院 “香山 - 昆明湖 V2” 的 18.5/GHz、阿里玄铁 C930 的 15.2/GHz,成为目前公开数据中最强的 RISC-V 单核;

  • 单核浮点性能:>3.6 SPECfp®2017/GHz,这一成绩意味着它能高效处理 AI 训练中的浮点运算、科学计算等 HPC 场景需求;

  • 综合适配性:完全兼容 RVA23 规范,支持硬件虚拟化、侧信道攻击防护、RAS(可靠性 / 可用性 / 可维护性)特性,直接满足服务器、AI 基础设施的严苛要求。

更关键的是,Ascalon 并非 “纯理论性能”—— 它的定位是 “AI 计算的伴侣 CPU”(CPU for AI Computation)。Wei-Han Lien 曾透露一个容易被忽视的事实:“在 AI 训练中,CPU 用于数据预处理、后处理的时间和功耗占比超过 50%”,而 Ascalon 通过优化存储一致性方案、强化矢量单元与 AI 加速器的协同能力,能将这部分开销降低 30% 以上,完美适配 Tenstorrent 自家的 Tensix AI 核心

不止于 CPU:Ascalon 如何融入 Tenstorrent 的 “算力生态”?

如果把 Ascalon 看作一款孤立的 CPU,那就太小看 Tenstorrent 的布局了。Jim Keller 的野心,是围绕 Ascalon 构建一套 “从 IP 到整机” 的全栈解决方案,而这套方案的灵活性,正是其对抗英伟达、英特尔的关键。

1. 多核与多 Chiplet:从 128 核到无限扩展

Ascalon 的性能不仅体现在单核,更在于其 “可集群化” 的设计:

  • 基础集群单元:8 个 Ascalon 核心组成一个集群,共享 12MB LLC(末级缓存),通过 230GB/s 的 CHI 一致性总线与 230GB/s 的 AXI 消息总线连接,确保多核协同无瓶颈;

  • 大规模扩展:基于 Aegis Chiplet(芯粒)架构,可将 16 个上述集群整合为 128 核系统,分为 4 个 cc-NUMA(缓存一致性非均匀内存访问)象限,配合 2TB/s 的 die-to-die(芯片间)带宽,轻松支撑数据中心级的大算力需求。

这种设计在 Tenstorrent 的下一代产品Grendel中会完全落地 —— 采用 3nm 工艺的 Grendel,将 Ascalon CPU 芯粒与 Tensix AI 芯粒自由组合,用户可根据需求选择 “更多 CPU 核心” 或 “更多 AI 算力”,无需为不需要的功能买单。

2. 全场景覆盖:从服务器到汽车 ADAS

Ascalon 的应用场景远不止数据中心:

  • AI 基础设施:作为 AI 加速器的 “伴侣 CPU”,处理数据预处理、模型调度,搭配 Tenstorrent 的 Wormhole AI 卡,4U Nebula 服务器可实现 12 INT8 PFLOPS 算力,功耗仅 6KW,能效比是英伟达 DGX 系统的 1.5 倍;

  • 汽车 HPC:凭借高可靠性(RAS 特性)与 256bit 矢量单元,Ascalon 能满足高级驾驶辅助系统(ADAS)的实时计算需求,目前 Tenstorrent 已与 AutoCore 合作,将 Ascalon 与 AutoCore.OS 结合,为车企提供 “芯片 + 软件” 的一体化方案;

  • 边缘与客户端:除了 8 宽的 Ascalon,Tenstorrent 还基于同一微架构,推出 2 宽、3 宽、4 宽、6 宽解码的 CPU IP(如 6 宽的 Alastor),覆盖边缘设备、笔记本等中低性能需求场景,形成完整的产品矩阵。

3. 商业模式:开源生态 + 灵活授权,打破供应商锁定

Tenstorrent 的玩法与传统芯片厂商截然不同,它采用 “三管齐下” 的业务模式:

  • IP 授权:对外提供 Ascalon 的 RTL 代码、硬宏甚至 GDS 文件,国内厂商可基于此定制专属 RISC-V 芯片,无需从零开发;

  • 硬件销售:推出 Ascalon 搭载的 AI 加速卡(如 Black Hole)、服务器(如 Nebula),直接满足企业 “即插即用” 的需求;

  • 开源软件:配套的 TT-Buda、TT-Metalium 软件栈完全开源,支持主流 LLM 模型与 AI 框架,开发者可在 GitHub 上直接获取工具链,降低 RISC-V 应用迁移成本。

更颠覆性的是,Tenstorrent 还推出了OCA(Open Chiplet Atlas)开源芯粒标准—— 不同厂商的芯粒(如三星的 3nm AI 芯粒、Tenstorrent 的 Ascalon CPU 芯粒)可基于 OCA 实现 “即插即用”,彻底打破传统芯粒 “供应商锁定” 的痛点。Jim Keller 直言:“开源不是口号,而是让算力真正自由的必经之路。”

为何说 Ascalon 是 RISC-V 的 “破局之作”?

在此之前,RISC-V 虽凭借开源优势在嵌入式、物联网领域快速渗透,但在服务器、AI 等高端市场,始终因 “性能不足”“生态薄弱” 被 x86 与 Arm 压制。而 Ascalon 的出现,恰好补上了这两块短板:

技术层面,它证明 RISC-V 架构完全有能力设计出对标 x86/Arm 的高性能 CPU——8 宽解码、乱序执行、高 IPC 的组合,打破了 “RISC-V 只能做低端芯片” 的偏见;从生态层面,Ascalon 全面兼容 RVA23 规范,支持 GCC、LLVM、Qemu 等主流工具链,解决了开发者 “软件适配难” 的顾虑;从市场层面,它为企业提供了 “不依赖 x86/Arm” 的高端算力选择,尤其对追求自主可控的中国市场而言,Ascalon 的出口合规性与定制化能力,成为极具吸引力的选项(目前 Tenstorrent 已与 CoreLab 合作,为中国客户提供本地化支持)。

Jim Keller 在 Ascalon 发布会上说:“伟大的技术从来不是靠垄断诞生的,而是靠开放与创新。” 如今,Ascalon 已不是一款孤立的 CPU,而是 Tenstorrent 挑战现有算力格局的 “先锋武器”—— 当 3nm 工艺的 Grendel 在 2024 年落地,当 OCA 芯粒生态吸引更多厂商加入,RISC-V 或许真的能在 Jim Keller 的推动下,成为高端芯片市场的第三极。

结语:算力自由的下一站,由 RISC-V 定义?

从 AMD Zen 到苹果 M1,Jim Keller 始终在做同一件事:打破垄断,让算力更高效、更自由。而 Ascalon,正是他在 RISC-V 赛道上的又一次尝试。

当然,挑战依然存在 ——x86 的软件生态壁垒、英伟达 CUDA 的统治力,都不是短期能撼动的。但正如 Wei-Han Lien 所说:“M1 推出时,也没人相信 Arm 能颠覆 x86 的笔记本市场。”Ascalon 的意义,不仅在于刷新了一个性能纪录,更在于为行业注入了一种可能性:未来的高性能算力,未必只有 x86 和 Arm 两条路。

对于开发者与企业而言,Ascalon 的登场或许是一个信号:是时候认真看待 RISC-V 了 —— 它不再是实验室里的 “小众架构”,而是能真正支撑业务的高性能选择。而 Tenstorrent 与 Jim Keller 的下一步,值得整个行业期待。


欢迎关注公众号,随时获取最新动态

【声明】内容源于网络
0
0
处理器+AI知识星球
计算机体系结构、RISC-V、CPU、GPU、NPU、XPU等相关知识
内容 125
粉丝 0
处理器+AI知识星球 计算机体系结构、RISC-V、CPU、GPU、NPU、XPU等相关知识
总阅读69
粉丝0
内容125