网易游戏 Tmax 平台实践：基于 Fluid 的云原生 AI 大模型推理加速架构- 大数跨境

首页

网易游戏 Tmax 平台实践：基于 Fluid 的云原生 AI 大模型推理加速架构

AI前线

2026-03-03

导读：游戏行业智能化浪潮下的基础设施不断演进

作者 | 廖海峰，张翔

背景：游戏行业智能化浪潮下的基础设施演进

作为中国领先的游戏研发与运营公司，网易游戏拥有《梦幻西游》《大话西游》《蛋仔派对》等国民级产品，以及游戏资产交易平台“藏宝阁”。随着产品矩阵扩大与用户体验升级，其数据类型与业务场景日益复杂。

大模型正深度重塑游戏行业——在NPC智能化、自动化剧情生成、角色动作捕捉及游戏资产生成等环节，尤其在RPG与社交类游戏中，已成为核心竞争力。为支撑AI业务发展，网易游戏构建了云原生的Tmax AI机器学习平台，提供灵活资源调度、高效AI开发及易托管AI服务。

Tmax平台基于Kubernetes，集成Kubeflow、自研调度器与CubeFS文件系统，覆盖Jupyter开发、分布式训练到模型推理部署的全链路AI生命周期。但随着大模型推理规模爆发，平台在资源弹性、数据访问效率与多地域协同方面面临严峻挑战。

挑战：大模型推理服务的“不可能三角”

构建推理服务时，成本、效率与弹性三者难以兼顾：

1. GPU资源稀缺且异构

高端GPU供应受限、价格高昂，存量卡型复杂。平台需实现分钟级弹性伸缩，避免按峰值长期空置资源。

2. 业务峰值差异导致资源浪费

时段分布不均：不同游戏流量高峰分布在一天中不同时段（如晚间游戏高峰、白天办公工具使用高峰）；
资源需求异构：实时推理、批量处理、模型微调等场景对GPU类型、显存、网络要求各异；
按峰值预留低效：为各业务单独预留峰值资源，整体利用率低下，资源浪费率超60%。

3. Serverless冷启动延迟严重

阿里云ACS Serverless容器虽具弹性优势，但大模型加载成瓶颈：拉取一个70B模型（约140GB+）至GPU显存需10–15分钟，完全抵消弹性价值。

4. 多地域存储管理复杂、计算资源碎片化

跨地域管理难：GPU资源分散多地，模型数据需高效同步与统一管理；
存储性能瓶颈：70–500GB大模型从远端加载至GPU节点速度慢，是推理延迟主因；
多环境运行时支持：需统一支持IDC物理机、云上ECS及Serverless容器等多种计算资源的存储访问，要求存储抽象具备跨集群、跨云厂商的一致接口。

方案选型：为何选择Fluid+AlluxioRuntime？

针对大模型推理的多地域缓存加速需求，团队评估了直接部署Alluxio与基于Fluid构建完整方案两条路径。

二者抽象层级与架构定位差异

· Alluxio：分布式缓存引擎，提供内存级数据访问能力，核心价值在于作为计算与存储间的虚拟化层，提供统一命名空间与缓存加速；
· Fluid：基于Kubernetes及Alluxio等底层系统的云原生数据编排平台，以数据集为中心进行抽象，深度集成Kubernetes生态。

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: game-models
spec:
  mounts:
  - mountPoint: s3://game-registry/models/
    name: models
    options:
      fs.cos.accessKeyId: <access-key>
    encryptOptions:
    - name: fs.s3.accessKeySecret
      valueFrom:
        secretKeyRef:
          name: s3-secret
          key: accessKeySecret

该抽象层级差异决定二者解决不同层次问题。最终选择Fluid，主要基于以下综合考量：

选择Fluid的核心依据

抽象匹配：Fluid的“数据集”抽象更契合AI应用的数据使用模式，Alluxio的“文件系统”抽象更底层；
运维简化：封装Alluxio运维复杂性，提供Kubernetes原生管理体验；
场景优化：专为AI/ML场景优化，直击大模型加载痛点；
生态集成：作为CNCF孵化项目，与云原生生态兼容性更强；
长期投资：多Runtime架构避免技术绑定，利于未来演进。

落地实践：声明式数据基础设施

依托Fluid云原生抽象能力，构建“计算–缓存–存储”三层解耦架构：

底层存储：CubeFS/OSS存放原始模型权重；
加速层：Fluid + AlluxioRuntime构建跨地域统一访问接口的分布式缓存层；
计算层：Kubernetes集群（含Serverless容器）运行推理服务，通过PVC挂载数据。

关键配置实践

1. 自动预热机制

针对DeepSeek-R1等超大模型，启用Fluid应用预取功能，显著缩短冷启动时间。

annotations:
  # 开启预取优化
  file-prefetcher.fluid.io/inject: "true"
  # 指定预取超时时间，默认120s，超大模型建议调大
  file-prefetcher.fluid.io/prefetch-timeout-seconds: "2400"
  # 指定预取文件范围，支持glob通配
  file-prefetcher.fluid.io/file-list: "pvc://llm-model/"

2. 智能弹性：GitOps与定时伸缩

结合CronHorizontalPodAutoscaler与Fluid DataLoad，实现全自动“潮汐式”管理：

高峰前：自动扩容缓存节点并触发模型预热；
低峰后：自动缩容缓存节点，释放资源。

apiVersion: autoscaling.alibabacloud.com/v1beta1
kind: CronHorizontalPodAutoscaler
metadata:
  name: scale-evening-models
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: data.fluid.io/v1alpha1
    kind: AlluxioRuntime
    name: tmax-model
  jobs:
  - name: "scale-down"
    schedule: "0 0 7 ? * 1"
    targetSize: 10
  - name: "scale-up"
    schedule: "0 0 18 ? * 5-6"
    targetSize: 20

apiVersion: data.fluid.io/v1alpha1
kind: DataLoad
metadata:
  name: prewarm-evening-models
spec:
  policy: Cron
  schedule: "0 0 18 * *"  # 每日18点执行预热
  loadMetadata: true  # 同步后端存储变化
  target:
  - path: /path/to/warmup  # 指定预热路径

3. 跨Namespace缓存共享

Tmax平台存在“公共模型仓库”与“多业务项目组”并存场景。若各Namespace独立部署Dataset与Runtime，将导致存储冗余、内存浪费与管理混乱。

Fluid跨Namespace引用能力有效解决该问题：

Model-Hub Namespace：由平台管理员维护，部署AlluxioRuntime与Dataset，对接底层存储并统一预热；
Game-Project Namespace：各游戏项目组仅需创建引用型Dataset指向Hub数据集，无需重复部署Runtime。

管理员在public-services命名空间发布模型：

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: deepseek-base
  namespace: public-services
spec:
  accessModes:
  - ReadWriteMany
  mounts:
  - mountPoint: s3://common-models/deepseek-v3
    name: model-root

业务组在game-team-a命名空间引用：

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: shared-model
  namespace: game-team-a
spec:
  mounts:
  - mountPoint: dataset://public-services/deepseek-base  # 指向公共空间数据集
    name: deepseek-mount

收益

一次预热，全员加速：模型仅需在公共空间加载一次，所有授权业务组通过本地网络访问，免重复下载；
资源节省：缓存层内存占用降低60%–80%；
极速启动：新开服业务可秒级挂载公共缓存，实现秒级启动。

性能与成本收益

经一年以上生产验证，Fluid + AlluxioRuntime组合不仅突破I/O瓶颈，更带来显著业务价值：

1. 性能维度：12倍启动加速，Serverless真正落地

基线（直连CubeFS）：平均耗时36分钟；
传统Alluxio：缩短至14分钟；
Fluid智能预读：降至3分钟；
收益：12倍性能提升，使Serverless算力具备生产可用性。

2. 成本维度：TCO显著降低，消除资源碎片

存储成本下降：跨Namespace共享机制避免Base Model重复缓存，单份缓存支撑上百推理Pod，大幅削减内存开销；
GPU利用率提升：“潮汐式”伸缩配合3分钟极速启动，GPU闲置率降低约20%。

3. 稳定性维度：化解“惊群效应”，保障高并发

保护底层存储：Fluid作为流量“挡板”，拦截数百Pod并发请求，彻底规避对象存储带宽限流与过载风险；
推理吞吐稳定：I/O延迟由毫秒级（ms）降至微秒级（μs），保障P99延迟稳定性。

4. 效率维度：算法团队“零感知”体验

接口统一：无论底层是S3、HDFS或CubeFS，工程师均可像操作本地文件一样使用PVC挂载目录，无需引入SDK；
环境一致性：开发（Jupyter）与生产（Serverless）共用同一Dataset定义，消除“开发能跑、上线报错”问题。

结语

网易游戏通过Fluid实践，成功构建高效、弹性、低成本的大模型推理数据基础设施，有效应对GPU资源紧张、业务峰值差异与弹性伸缩困难等挑战，为游戏行业探索AI原生体验提供了坚实支撑。

在游戏与AI深度融合的当下，现代化基础设施已成为创新基石。Fluid作为云原生数据编排代表，在网易游戏的成功落地，为行业提供了可复用的技术范式。“以数据为中心”的架构设计，正成为企业降本增效、构建核心竞争力的关键路径，推动游戏行业迈向更智能、个性化与沉浸式的新阶段。

作者简介

廖海峰（Senior Infrastructure Engineer）：负责网易互娱AI基础设施平台的算力构建与稳定性保障，致力于为大规模游戏AI业务提供坚实算力底座与服务支撑。

张翔（Head of AI Infrastructure）：负责网易互娱AI基础设施平台的技术演进与架构设计，聚焦高性能、高可用、低成本AI基础设施建设。

【声明】内容源于网络

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

内容 8123

粉丝 0

AI前线面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

总阅读85.1k

粉丝0

内容8.1k