大数跨境

奕行智能 × 红帽 × vLLM:国产RISC-V AI算力芯片深度融入全球开源生态

奕行智能 × 红帽 × vLLM:国产RISC-V AI算力芯片深度融入全球开源生态 奕行智能 EVAS
2026-03-24
0
导读:当国产RISC-V AI算力芯片遇上全球最流行的开源推理引擎,会碰撞出怎样的火花?

当国产RISC-V AI算力芯片遇上全球最流行的开源推理引擎,会碰撞出怎样的火花?

近日,奕行智能红帽公司联合举办了一场vLLM (一种用于大语言模型的高性能推理引擎)技术工作坊。聚焦 AI 大模型推理前沿技术,红帽亚太 CTO 办公室首席架构师兼大中华区 CTO 张家驹、vLLM 社区核心专家 Luka Govedic等重量级嘉宾深度参与,与奕行智能团队就异构算力适配、编译器优化及开源生态建设展开了前瞻性讨论。
vLLM:开源推理引擎的领航者

作为全球最受欢迎的开源推理引擎之一,vLLM 2023年凭借革命性的PagedAttention 技术横空出世以来,凭借其高吞吐、内存高效等特点,已迅速成为国内外 AI 大模型推理的核心框架。目前,vLLM 的 GitHub Star 数已突破7.3万,并于2025年正式加入PyTorch 基金会,代表不管从开发者社区还是开源界都获得了足够的“信任票”,成为大模型推理领域的事实标准。

202411月,红帽正式收购vLLM 生态的核心公司 Neural Magic,将顶尖维护团队纳入旗下,这标志着 vLLM 获得了企业级开源厂商的强力背书。如今,vLLM 的硬件支持已覆盖主流 GPUCPU 及包括 Google TPUIntel Gaudi、华为昇腾 NPU 在内的多种 AI 专用加速器,构建起广泛而开放的异构计算生态。

深度适配:奕行智能的 vLLM 支持亮点

在本次交流中,奕行智能团队详细介绍了其针对 vLLM 深度优化的 vLLM-EVAS 框架亮点,展现了 RISC-V 架构在高性能 AI 推理场景下的潜力:

  • 性能跨越式提升:通过自研 AI 编译器配合 Ev Graph 架构,大幅优化了模型执行效率;同时依托自研高性能算子库,显著提升算力利用率与带宽利用率。

  • 接口层深度优化:针对推理过程中的调度开销,奕行智能实现了接口层的深度优化,使得算子调用开销相比 torch 原生 pybind 方式下降了 4-10 倍。

  • 核心特性全对接:目前已全面对接 vLLM 的核心高阶特性,包括 PrefixCache(前缀缓存)、异步混合调度、投机采样以及 MTP (多token预测)等,确保了在复杂推理任务下的卓越表现。

技术对话:共探开源生态接入的最佳路径

在与 vLLM 社区 Maintainer 的技术对话中,双方重点探讨了奕行智能硬件平台接入 vLLM 开源生态的优化路径,力求在遵循社区推荐工作流的同时,确保方案具备良好的兼容性与可扩展性。技术团队还就自研 AI 编译器与官方 torch.compile 形式的对比、不同业务场景(如低延迟、高吞吐、稀疏与稠密等)下的性能调优策略,以及分布式架构下的技术挑战与优化方向与专家进行了深度对标。这些专业视角的引入,加速了自研技术与国际开源标准的对齐。

生态战略:从“使用者”向“共建者”跃迁

在 AI 大模型时代,生态即竞争力。奕行智能始终将软件生态建设视为公司发展的核心战略,坚持“不仅要成为 vLLM 生态的使用者,更要成为共建者和贡献者”的理念 。

展望未来,奕行智能已制定了清晰的路线图,将继续推进开发工作,实现vLLM后端的深度适配与性能调优,逐步完善框架并开源,并与vLLM社区保持紧密沟通。奕行智能致力于持续实现与vLLM新版本及主流大模型的Day 0适配,通过在开发过程中积极向社区贡献PR(Pull Request,代码合并请求),不断增强在国际开源社区的影响力,力争成为国产RISC-V AI芯片与开源生态融合的标杆。

奕行智能与红帽公司、vLLM 社区的深度合作,不仅是技术层面的对接,更是战略层面的携手。三方将共同推动国产 RISC-V AI 算力芯片与国际开源生态的深度融合,为中国 AI 产业的发展贡献核心力量。

About EVAS

奕行智能,一家专注于新一代通用AI计算技术的芯片设计及解决方案公司。奕行智能以先进的计算架构、软件工具链为核心技术,深度融合RISC-V开放指令集与类TPU的自研AI计算架构,提供满足客户极致TCO需求的AI计算芯片,为客户提供高效、灵活、可扩展的AI计算加速解决方案。


【声明】内容源于网络
0
0
奕行智能 EVAS
一家AGI时代的通用AI计算芯片公司。
内容 0
粉丝 0
奕行智能 EVAS 一家AGI时代的通用AI计算芯片公司。
总阅读0
粉丝0
内容0