大数跨境

网易游戏 Tmax 平台实践:基于 Fluid 的云原生 AI 大模型推理加速架构

网易游戏 Tmax 平台实践:基于 Fluid 的云原生 AI 大模型推理加速架构 AI前线
2026-03-03
18
导读:游戏行业智能化浪潮下的基础设施不断演进
作者 | 廖海峰,张翔

背景:游戏行业智能化浪潮下的基础设施演进

作为中国领先的游戏研发与运营公司,网易游戏拥有《梦幻西游》《大话西游》《蛋仔派对》等国民级产品,以及游戏资产交易平台“藏宝阁”。随着产品矩阵扩大与用户体验升级,其数据类型与业务场景日益复杂。

大模型正深度重塑游戏行业——在NPC智能化、自动化剧情生成、角色动作捕捉及游戏资产生成等环节,尤其在RPG与社交类游戏中,已成为核心竞争力。为支撑AI业务发展,网易游戏构建了云原生的Tmax AI机器学习平台,提供灵活资源调度、高效AI开发及易托管AI服务

Tmax平台基于Kubernetes,集成Kubeflow、自研调度器与CubeFS文件系统,覆盖Jupyter开发、分布式训练到模型推理部署的全链路AI生命周期。但随着大模型推理规模爆发,平台在资源弹性、数据访问效率与多地域协同方面面临严峻挑战。

挑战:大模型推理服务的“不可能三角”

构建推理服务时,成本、效率与弹性三者难以兼顾:

1. GPU资源稀缺且异构

高端GPU供应受限、价格高昂,存量卡型复杂。平台需实现分钟级弹性伸缩,避免按峰值长期空置资源。

2. 业务峰值差异导致资源浪费

  • 时段分布不均:不同游戏流量高峰分布在一天中不同时段(如晚间游戏高峰、白天办公工具使用高峰);
  • 资源需求异构:实时推理、批量处理、模型微调等场景对GPU类型、显存、网络要求各异;
  • 按峰值预留低效:为各业务单独预留峰值资源,整体利用率低下,资源浪费率超60%。

3. Serverless冷启动延迟严重

阿里云ACS Serverless容器虽具弹性优势,但大模型加载成瓶颈:拉取一个70B模型(约140GB+)至GPU显存需10–15分钟,完全抵消弹性价值。

4. 多地域存储管理复杂、计算资源碎片化

  • 跨地域管理难:GPU资源分散多地,模型数据需高效同步与统一管理;
  • 存储性能瓶颈:70–500GB大模型从远端加载至GPU节点速度慢,是推理延迟主因;
  • 多环境运行时支持:需统一支持IDC物理机、云上ECS及Serverless容器等多种计算资源的存储访问,要求存储抽象具备跨集群、跨云厂商的一致接口。

方案选型:为何选择Fluid+AlluxioRuntime?

针对大模型推理的多地域缓存加速需求,团队评估了直接部署Alluxio与基于Fluid构建完整方案两条路径。

二者抽象层级与架构定位差异

· Alluxio:分布式缓存引擎,提供内存级数据访问能力,核心价值在于作为计算与存储间的虚拟化层,提供统一命名空间与缓存加速;
· Fluid:基于Kubernetes及Alluxio等底层系统的云原生数据编排平台,以数据集为中心进行抽象,深度集成Kubernetes生态。

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: game-models
spec:
  mounts:
  - mountPoint: s3://game-registry/models/
    name: models
    options:
      fs.cos.accessKeyId: <access-key>
    encryptOptions:
    - name: fs.s3.accessKeySecret
      valueFrom:
        secretKeyRef:
          name: s3-secret
          key: accessKeySecret

该抽象层级差异决定二者解决不同层次问题。最终选择Fluid,主要基于以下综合考量:

选择Fluid的核心依据

  1. 抽象匹配:Fluid的“数据集”抽象更契合AI应用的数据使用模式,Alluxio的“文件系统”抽象更底层;
  2. 运维简化:封装Alluxio运维复杂性,提供Kubernetes原生管理体验;
  3. 场景优化:专为AI/ML场景优化,直击大模型加载痛点;
  4. 生态集成:作为CNCF孵化项目,与云原生生态兼容性更强;
  5. 长期投资:多Runtime架构避免技术绑定,利于未来演进。

落地实践:声明式数据基础设施

依托Fluid云原生抽象能力,构建“计算–缓存–存储”三层解耦架构:

  1. 底层存储:CubeFS/OSS存放原始模型权重;
  2. 加速层:Fluid + AlluxioRuntime构建跨地域统一访问接口的分布式缓存层;
  3. 计算层:Kubernetes集群(含Serverless容器)运行推理服务,通过PVC挂载数据。

关键配置实践

1. 自动预热机制

针对DeepSeek-R1等超大模型,启用Fluid应用预取功能,显著缩短冷启动时间。

annotations:
  # 开启预取优化
  file-prefetcher.fluid.io/inject: "true"
  # 指定预取超时时间,默认120s,超大模型建议调大
  file-prefetcher.fluid.io/prefetch-timeout-seconds: "2400"
  # 指定预取文件范围,支持glob通配
  file-prefetcher.fluid.io/file-list: "pvc://llm-model/"

2. 智能弹性:GitOps与定时伸缩

结合CronHorizontalPodAutoscaler与Fluid DataLoad,实现全自动“潮汐式”管理:

  • 高峰前:自动扩容缓存节点并触发模型预热;
  • 低峰后:自动缩容缓存节点,释放资源。
apiVersion: autoscaling.alibabacloud.com/v1beta1
kind: CronHorizontalPodAutoscaler
metadata:
  name: scale-evening-models
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: data.fluid.io/v1alpha1
    kind: AlluxioRuntime
    name: tmax-model
  jobs:
  - name: "scale-down"
    schedule: "0 0 7 ? * 1"
    targetSize: 10
  - name: "scale-up"
    schedule: "0 0 18 ? * 5-6"
    targetSize: 20
apiVersion: data.fluid.io/v1alpha1
kind: DataLoad
metadata:
  name: prewarm-evening-models
spec:
  policy: Cron
  schedule: "0 0 18 * *"  # 每日18点执行预热
  loadMetadata: true  # 同步后端存储变化
  target:
  - path: /path/to/warmup  # 指定预热路径

3. 跨Namespace缓存共享

Tmax平台存在“公共模型仓库”与“多业务项目组”并存场景。若各Namespace独立部署Dataset与Runtime,将导致存储冗余、内存浪费与管理混乱。

Fluid跨Namespace引用能力有效解决该问题:

  • Model-Hub Namespace:由平台管理员维护,部署AlluxioRuntime与Dataset,对接底层存储并统一预热;
  • Game-Project Namespace:各游戏项目组仅需创建引用型Dataset指向Hub数据集,无需重复部署Runtime。

管理员在public-services命名空间发布模型:

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: deepseek-base
  namespace: public-services
spec:
  accessModes:
  - ReadWriteMany
  mounts:
  - mountPoint: s3://common-models/deepseek-v3
    name: model-root

业务组在game-team-a命名空间引用:

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: shared-model
  namespace: game-team-a
spec:
  mounts:
  - mountPoint: dataset://public-services/deepseek-base  # 指向公共空间数据集
    name: deepseek-mount

收益

  • 一次预热,全员加速:模型仅需在公共空间加载一次,所有授权业务组通过本地网络访问,免重复下载;
  • 资源节省:缓存层内存占用降低60%–80%;
  • 极速启动:新开服业务可秒级挂载公共缓存,实现秒级启动。

性能与成本收益

经一年以上生产验证,Fluid + AlluxioRuntime组合不仅突破I/O瓶颈,更带来显著业务价值:

1. 性能维度:12倍启动加速,Serverless真正落地

  • 基线(直连CubeFS):平均耗时36分钟;
  • 传统Alluxio:缩短至14分钟;
  • Fluid智能预读:降至3分钟;
  • 收益:12倍性能提升,使Serverless算力具备生产可用性。

2. 成本维度:TCO显著降低,消除资源碎片

  • 存储成本下降:跨Namespace共享机制避免Base Model重复缓存,单份缓存支撑上百推理Pod,大幅削减内存开销;
  • GPU利用率提升:“潮汐式”伸缩配合3分钟极速启动,GPU闲置率降低约20%。

3. 稳定性维度:化解“惊群效应”,保障高并发

  • 保护底层存储:Fluid作为流量“挡板”,拦截数百Pod并发请求,彻底规避对象存储带宽限流与过载风险;
  • 推理吞吐稳定:I/O延迟由毫秒级(ms)降至微秒级(μs),保障P99延迟稳定性。

4. 效率维度:算法团队“零感知”体验

  • 接口统一:无论底层是S3、HDFS或CubeFS,工程师均可像操作本地文件一样使用PVC挂载目录,无需引入SDK;
  • 环境一致性:开发(Jupyter)与生产(Serverless)共用同一Dataset定义,消除“开发能跑、上线报错”问题。

结语

网易游戏通过Fluid实践,成功构建高效、弹性、低成本的大模型推理数据基础设施,有效应对GPU资源紧张、业务峰值差异与弹性伸缩困难等挑战,为游戏行业探索AI原生体验提供了坚实支撑。

在游戏与AI深度融合的当下,现代化基础设施已成为创新基石。Fluid作为云原生数据编排代表,在网易游戏的成功落地,为行业提供了可复用的技术范式。“以数据为中心”的架构设计,正成为企业降本增效、构建核心竞争力的关键路径,推动游戏行业迈向更智能、个性化与沉浸式的新阶段。

作者简介

廖海峰(Senior Infrastructure Engineer):负责网易互娱AI基础设施平台的算力构建与稳定性保障,致力于为大规模游戏AI业务提供坚实算力底座与服务支撑。

张翔(Head of AI Infrastructure):负责网易互娱AI基础设施平台的技术演进与架构设计,聚焦高性能、高可用、低成本AI基础设施建设。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 8123
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读85.1k
粉丝0
内容8.1k