当国产RISC-V AI算力芯片遇上全球最流行的开源推理引擎,会碰撞出怎样的火花?
作为全球最受欢迎的开源推理引擎之一,vLLM 自2023年凭借革命性的PagedAttention 技术横空出世以来,凭借其高吞吐、内存高效等特点,已迅速成为国内外 AI 大模型推理的核心框架。目前,vLLM 的 GitHub Star 数已突破7.3万,并于2025年正式加入PyTorch 基金会,代表不管从开发者社区还是开源界都获得了足够的“信任票”,成为大模型推理领域的事实标准。
2024年11月,红帽正式收购vLLM 生态的核心公司 Neural Magic,将顶尖维护团队纳入旗下,这标志着 vLLM 获得了企业级开源厂商的强力背书。如今,vLLM 的硬件支持已覆盖主流 GPU、CPU 及包括 Google TPU、Intel Gaudi、华为昇腾 NPU 在内的多种 AI 专用加速器,构建起广泛而开放的异构计算生态。
深度适配:奕行智能的 vLLM 支持亮点
在本次交流中,奕行智能团队详细介绍了其针对 vLLM 深度优化的 vLLM-EVAS 框架亮点,展现了 RISC-V 架构在高性能 AI 推理场景下的潜力:
性能跨越式提升:通过自研 AI 编译器配合 Ev Graph 架构,大幅优化了模型执行效率;同时依托自研高性能算子库,显著提升算力利用率与带宽利用率。
接口层深度优化:针对推理过程中的调度开销,奕行智能实现了接口层的深度优化,使得算子调用开销相比 torch 原生 pybind 方式下降了 4-10 倍。
核心特性全对接:目前已全面对接 vLLM 的核心高阶特性,包括 PrefixCache(前缀缓存)、异步混合调度、投机采样以及 MTP (多token预测)等,确保了在复杂推理任务下的卓越表现。
技术对话:共探开源生态接入的最佳路径
在与 vLLM 社区 Maintainer 的技术对话中,双方重点探讨了奕行智能硬件平台接入 vLLM 开源生态的优化路径,力求在遵循社区推荐工作流的同时,确保方案具备良好的兼容性与可扩展性。技术团队还就自研 AI 编译器与官方 torch.compile 形式的对比、不同业务场景(如低延迟、高吞吐、稀疏与稠密等)下的性能调优策略,以及分布式架构下的技术挑战与优化方向与专家进行了深度对标。这些专业视角的引入,加速了自研技术与国际开源标准的对齐。
生态战略:从“使用者”向“共建者”跃迁
在 AI 大模型时代,生态即竞争力。奕行智能始终将软件生态建设视为公司发展的核心战略,坚持“不仅要成为 vLLM 生态的使用者,更要成为共建者和贡献者”的理念 。
展望未来,奕行智能已制定了清晰的路线图,将继续推进开发工作,实现vLLM后端的深度适配与性能调优,逐步完善框架并开源,并与vLLM社区保持紧密沟通。奕行智能致力于持续实现与vLLM新版本及主流大模型的Day 0适配,通过在开发过程中积极向社区贡献PR(Pull Request,代码合并请求),不断增强在国际开源社区的影响力,力争成为国产RISC-V AI芯片与开源生态融合的标杆。
奕行智能与红帽公司、vLLM 社区的深度合作,不仅是技术层面的对接,更是战略层面的携手。三方将共同推动国产 RISC-V AI 算力芯片与国际开源生态的深度融合,为中国 AI 产业的发展贡献核心力量。
About EVAS
奕行智能,一家专注于新一代通用AI计算技术的芯片设计及解决方案公司。奕行智能以先进的计算架构、软件工具链为核心技术,深度融合RISC-V开放指令集与类TPU的自研AI计算架构,提供满足客户极致TCO需求的AI计算芯片,为客户提供高效、灵活、可扩展的AI计算加速解决方案。

