红帽近日宣布与Amazon Web Services(AWS)进一步深化合作,依托红帽AI与AWS AI芯片,在AWS上共同构建企业级生成式AI能力。
通过这一合作,红帽致力于为IT决策者提供更高的自由度,使其无论采用何种底层硬件,都能够在大规模环境中高效运行高性能AI推理任务。
随着生成式AI的快速发展以及对大规模推理能力的迫切需求,越来越多企业开始重新审视自身的IT基础架构。
IDC预测:“到2027年,将有40%的企业采用定制芯片(包括ARM处理器或专用AI/ML芯片),以满足持续增长的性能优化、成本效率与专业化计算需求。”¹ 这一趋势凸显出优化型解决方案的重要性:它们不仅能提升算力和处理效率,还能帮助企业降低成本,加速高性能AI应用的创新与落地。
红帽与AWS的合作将红帽完善的平台能力与AWS云基础设施及AI芯片(AWS Inferentia2与AWS Trainium3)深度结合,为企业构建完整的生成式AI技术栈提供坚实基础。此次合作的重点包括:
基于AWS AI芯片的红帽AI推理服务器:基于vLLM构建的红帽AI推理服务器将全面支持在AWS AI芯片(包括AWS Inferentia2和AWS Trainium3)上运行,提供统一的推理层,可适配任意生成式AI模型,帮助客户在生产环境中实现更高性能、更低延迟与更优成本效率。与当前同类GPU型Amazon EC2实例相比,预计可实现30–40%的价格性能提升。
在红帽OpenShift上更顺畅地运行AI:红帽与AWS合作开发了适用于红帽OpenShift、红帽OpenShift AI以及红帽OpenShift Service on AWS(在AWS上提供的全面托管应用平台)的AWS Neuron Operator,为客户在使用AWS加速器运行AI工作负载时提供更无缝、更受支持的技术路径。
更便捷的访问与部署体验:得益于对AWS AI芯片的支持,红帽将为其在AWS上的客户提供更简化的访问高需求、高容量加速器的方式。同时,红帽近期发布了amazon.ai认证的Ansible Collection,使红帽Ansible自动化平台能够灵活编排AWS上的AI服务,加速AI应用的部署与运维。
持续的上游社区贡献:红帽与AWS正合作优化一个适配vLLM的AWS AI芯片插件,并将其提交至上游社区。作为vLLM最大的商业贡献者,红帽致力于进一步优化vLLM在AWS上的运行表现,增强用户在推理与训练场景中的能力。vLLM也是llm-d的技术基础——一个面向大规模推理的开源项目,该能力已在红帽OpenShift AI 3中以商业化形式提供支持。
红帽与AWS长期保持深入合作,为企业提供覆盖从数据中心到边缘的能力支持。随着AI时代的到来,双方此次扩展合作将进一步帮助企业在混合云架构中实现更高效、更可控的生成式AI落地成效。
AWS Neuron社区版Operator现已在红帽OpenShift OperatorHub上提供,适用于使用红帽OpenShift或红帽OpenShift Service on AWS的客户。针对AWS AI芯片的红帽AI推理服务器支持预计将于2026年1月以开发者预览版本正式推出。
红帽AI业务部门副总裁兼总经理Joe Fernandes
通过让基于创新性vLLM框架构建的企业级红帽AI推理服务器支持AWS AI芯片,我们正帮助企业以更高效率和更大灵活性部署并扩展AI工作负载。基于红帽深厚的开源基因,此次合作旨在让生成式AI在混合云环境中变得更易用、更具成本效益。
AWS Annapurna Labs副总裁Colin Brace
企业对于关键AI工作负载的性能、成本效率和架构选择有着更高诉求。AWS推出Trainium和Inferentia芯片,正是为了让高性能AI推理与训练更加可获得、可负担。通过与红帽的合作,客户将能够以受支持的方式大规模部署生成式AI,将开源生态的灵活性与AWS基础设施及专用加速器的优势相结合,加速从试点到生产的价值实现。
CAE首席信息官兼数字服务部门副总裁Jean-François Gamache
依托红帽OpenShift Service on AWS,我们在关键应用现代化方面迈出了重要一步。该平台让我们的开发者能够专注于高价值工作,推动产品创新并加速AI在解决方案中的应用。红帽OpenShift的灵活性与可扩展性,使我们能够创造真正的业务影响——从实时教练式洞察到大幅缩短用户反馈问题的处理周期。
Techaisle创始人兼全球首席分析师Anurag Agrawal
随着AI推理成本不断上升,企业愈发重视效率与性能的平衡。此次合作充分体现了红帽‘任意模型、任意硬件’战略,通过将其开放混合云平台与AWS Trainium和Inferentia的经济优势相结合,使CIO能够真正实现生成式AI的大规模生产化,从昂贵的试验阶段迈向可持续、可治理的运营模式。
¹《IDC FutureScape:2025年全球云预测》,2024年10月28日,文档编号

