奕行智能 × 红帽 × vLLM：国产RISC-V AI算力芯片深度融入全球开源生态- 大数跨境

奕行智能 × 红帽 × vLLM：国产RISC-V AI算力芯片深度融入全球开源生态

奕行智能 EVAS

2026-03-24

导读：当国产RISC-V AI算力芯片遇上全球最流行的开源推理引擎，会碰撞出怎样的火花？

当国产RISC-V AI算力芯片遇上全球最流行的开源推理引擎，会碰撞出怎样的火花？

近日，奕行智能与红帽公司联合举办了一场vLLM （一种用于大语言模型的高性能推理引擎）技术工作坊。聚焦 AI 大模型推理前沿技术，红帽亚太 CTO 办公室首席架构师兼大中华区 CTO 张家驹、vLLM 社区核心专家 Luka Govedic等重量级嘉宾深度参与，与奕行智能团队就异构算力适配、编译器优化及开源生态建设展开了前瞻性讨论。

vLLM：开源推理引擎的领航者

作为全球最受欢迎的开源推理引擎之一，vLLM 自2023年凭借革命性的PagedAttention 技术横空出世以来，凭借其高吞吐、内存高效等特点，已迅速成为国内外 AI 大模型推理的核心框架。目前，vLLM 的 GitHub Star 数已突破7.3万，并于2025年正式加入PyTorch 基金会，代表不管从开发者社区还是开源界都获得了足够的“信任票”，成为大模型推理领域的事实标准。

2024年11月，红帽正式收购vLLM 生态的核心公司 Neural Magic，将顶尖维护团队纳入旗下，这标志着 vLLM 获得了企业级开源厂商的强力背书。如今，vLLM 的硬件支持已覆盖主流 GPU、CPU 及包括 Google TPU、Intel Gaudi、华为昇腾 NPU 在内的多种 AI 专用加速器，构建起广泛而开放的异构计算生态。

深度适配：奕行智能的 vLLM 支持亮点

在本次交流中，奕行智能团队详细介绍了其针对 vLLM 深度优化的 vLLM-EVAS 框架亮点，展现了 RISC-V 架构在高性能 AI 推理场景下的潜力：

性能跨越式提升：通过自研 AI 编译器配合 Ev Graph 架构，大幅优化了模型执行效率；同时依托自研高性能算子库，显著提升算力利用率与带宽利用率。
接口层深度优化：针对推理过程中的调度开销，奕行智能实现了接口层的深度优化，使得算子调用开销相比 torch 原生 pybind 方式下降了 4-10 倍。
核心特性全对接：目前已全面对接 vLLM 的核心高阶特性，包括 PrefixCache（前缀缓存）、异步混合调度、投机采样以及 MTP （多token预测）等，确保了在复杂推理任务下的卓越表现。

技术对话：共探开源生态接入的最佳路径

在与 vLLM 社区 Maintainer 的技术对话中，双方重点探讨了奕行智能硬件平台接入 vLLM 开源生态的优化路径，力求在遵循社区推荐工作流的同时，确保方案具备良好的兼容性与可扩展性。技术团队还就自研 AI 编译器与官方 torch.compile 形式的对比、不同业务场景（如低延迟、高吞吐、稀疏与稠密等）下的性能调优策略，以及分布式架构下的技术挑战与优化方向与专家进行了深度对标。这些专业视角的引入，加速了自研技术与国际开源标准的对齐。

生态战略：从“使用者”向“共建者”跃迁

在 AI 大模型时代，生态即竞争力。奕行智能始终将软件生态建设视为公司发展的核心战略，坚持“不仅要成为 vLLM 生态的使用者，更要成为共建者和贡献者”的理念。

展望未来，奕行智能已制定了清晰的路线图，将继续推进开发工作，实现vLLM后端的深度适配与性能调优，逐步完善框架并开源，并与vLLM社区保持紧密沟通。奕行智能致力于持续实现与vLLM新版本及主流大模型的Day 0适配，通过在开发过程中积极向社区贡献PR（Pull Request，代码合并请求），不断增强在国际开源社区的影响力，力争成为国产RISC-V AI芯片与开源生态融合的标杆。

奕行智能与红帽公司、vLLM 社区的深度合作，不仅是技术层面的对接，更是战略层面的携手。三方将共同推动国产 RISC-V AI 算力芯片与国际开源生态的深度融合，为中国 AI 产业的发展贡献核心力量。

About EVAS

奕行智能，一家专注于新一代通用AI计算技术的芯片设计及解决方案公司。奕行智能以先进的计算架构、软件工具链为核心技术，深度融合RISC-V开放指令集与类TPU的自研AI计算架构，提供满足客户极致TCO需求的AI计算芯片，为客户提供高效、灵活、可扩展的AI计算加速解决方案。

【声明】内容源于网络

奕行智能 EVAS

一家AGI时代的通用AI计算芯片公司。

内容 0

粉丝 0

奕行智能 EVAS 一家AGI时代的通用AI计算芯片公司。

总阅读0

粉丝0

内容0