背景:游戏行业智能化浪潮下的基础设施演进
作为中国领先的游戏研发与运营公司,网易游戏拥有《梦幻西游》《大话西游》《蛋仔派对》等国民级产品,以及游戏资产交易平台“藏宝阁”。随着产品矩阵扩大与用户体验升级,其数据类型与业务场景日益复杂。
大模型正深度重塑游戏行业——在NPC智能化、自动化剧情生成、角色动作捕捉及游戏资产生成等环节,尤其在RPG与社交类游戏中,已成为核心竞争力。为支撑AI业务发展,网易游戏构建了云原生的Tmax AI机器学习平台,提供灵活资源调度、高效AI开发及易托管AI服务。
Tmax平台基于Kubernetes,集成Kubeflow、自研调度器与CubeFS文件系统,覆盖Jupyter开发、分布式训练到模型推理部署的全链路AI生命周期。但随着大模型推理规模爆发,平台在资源弹性、数据访问效率与多地域协同方面面临严峻挑战。
挑战:大模型推理服务的“不可能三角”
构建推理服务时,成本、效率与弹性三者难以兼顾:
1. GPU资源稀缺且异构
高端GPU供应受限、价格高昂,存量卡型复杂。平台需实现分钟级弹性伸缩,避免按峰值长期空置资源。
2. 业务峰值差异导致资源浪费
- 时段分布不均:不同游戏流量高峰分布在一天中不同时段(如晚间游戏高峰、白天办公工具使用高峰);
- 资源需求异构:实时推理、批量处理、模型微调等场景对GPU类型、显存、网络要求各异;
- 按峰值预留低效:为各业务单独预留峰值资源,整体利用率低下,资源浪费率超60%。
3. Serverless冷启动延迟严重
阿里云ACS Serverless容器虽具弹性优势,但大模型加载成瓶颈:拉取一个70B模型(约140GB+)至GPU显存需10–15分钟,完全抵消弹性价值。
4. 多地域存储管理复杂、计算资源碎片化
- 跨地域管理难:GPU资源分散多地,模型数据需高效同步与统一管理;
- 存储性能瓶颈:70–500GB大模型从远端加载至GPU节点速度慢,是推理延迟主因;
- 多环境运行时支持:需统一支持IDC物理机、云上ECS及Serverless容器等多种计算资源的存储访问,要求存储抽象具备跨集群、跨云厂商的一致接口。
方案选型:为何选择Fluid+AlluxioRuntime?
针对大模型推理的多地域缓存加速需求,团队评估了直接部署Alluxio与基于Fluid构建完整方案两条路径。
二者抽象层级与架构定位差异
· Alluxio:分布式缓存引擎,提供内存级数据访问能力,核心价值在于作为计算与存储间的虚拟化层,提供统一命名空间与缓存加速;
· Fluid:基于Kubernetes及Alluxio等底层系统的云原生数据编排平台,以数据集为中心进行抽象,深度集成Kubernetes生态。
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
name: game-models
spec:
mounts:
- mountPoint: s3://game-registry/models/
name: models
options:
fs.cos.accessKeyId: <access-key>
encryptOptions:
- name: fs.s3.accessKeySecret
valueFrom:
secretKeyRef:
name: s3-secret
key: accessKeySecret
该抽象层级差异决定二者解决不同层次问题。最终选择Fluid,主要基于以下综合考量:
选择Fluid的核心依据
- 抽象匹配:Fluid的“数据集”抽象更契合AI应用的数据使用模式,Alluxio的“文件系统”抽象更底层;
- 运维简化:封装Alluxio运维复杂性,提供Kubernetes原生管理体验;
- 场景优化:专为AI/ML场景优化,直击大模型加载痛点;
- 生态集成:作为CNCF孵化项目,与云原生生态兼容性更强;
- 长期投资:多Runtime架构避免技术绑定,利于未来演进。
落地实践:声明式数据基础设施
依托Fluid云原生抽象能力,构建“计算–缓存–存储”三层解耦架构:
- 底层存储:CubeFS/OSS存放原始模型权重;
- 加速层:Fluid + AlluxioRuntime构建跨地域统一访问接口的分布式缓存层;
- 计算层:Kubernetes集群(含Serverless容器)运行推理服务,通过PVC挂载数据。
关键配置实践
1. 自动预热机制
针对DeepSeek-R1等超大模型,启用Fluid应用预取功能,显著缩短冷启动时间。
annotations:
# 开启预取优化
file-prefetcher.fluid.io/inject: "true"
# 指定预取超时时间,默认120s,超大模型建议调大
file-prefetcher.fluid.io/prefetch-timeout-seconds: "2400"
# 指定预取文件范围,支持glob通配
file-prefetcher.fluid.io/file-list: "pvc://llm-model/"
2. 智能弹性:GitOps与定时伸缩
结合CronHorizontalPodAutoscaler与Fluid DataLoad,实现全自动“潮汐式”管理:
- 高峰前:自动扩容缓存节点并触发模型预热;
- 低峰后:自动缩容缓存节点,释放资源。
apiVersion: autoscaling.alibabacloud.com/v1beta1
kind: CronHorizontalPodAutoscaler
metadata:
name: scale-evening-models
namespace: default
spec:
scaleTargetRef:
apiVersion: data.fluid.io/v1alpha1
kind: AlluxioRuntime
name: tmax-model
jobs:
- name: "scale-down"
schedule: "0 0 7 ? * 1"
targetSize: 10
- name: "scale-up"
schedule: "0 0 18 ? * 5-6"
targetSize: 20
apiVersion: data.fluid.io/v1alpha1
kind: DataLoad
metadata:
name: prewarm-evening-models
spec:
policy: Cron
schedule: "0 0 18 * *" # 每日18点执行预热
loadMetadata: true # 同步后端存储变化
target:
- path: /path/to/warmup # 指定预热路径
3. 跨Namespace缓存共享
Tmax平台存在“公共模型仓库”与“多业务项目组”并存场景。若各Namespace独立部署Dataset与Runtime,将导致存储冗余、内存浪费与管理混乱。
Fluid跨Namespace引用能力有效解决该问题:
- Model-Hub Namespace:由平台管理员维护,部署AlluxioRuntime与Dataset,对接底层存储并统一预热;
- Game-Project Namespace:各游戏项目组仅需创建引用型Dataset指向Hub数据集,无需重复部署Runtime。
管理员在public-services命名空间发布模型:
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
name: deepseek-base
namespace: public-services
spec:
accessModes:
- ReadWriteMany
mounts:
- mountPoint: s3://common-models/deepseek-v3
name: model-root
业务组在game-team-a命名空间引用:
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
name: shared-model
namespace: game-team-a
spec:
mounts:
- mountPoint: dataset://public-services/deepseek-base # 指向公共空间数据集
name: deepseek-mount
收益
- 一次预热,全员加速:模型仅需在公共空间加载一次,所有授权业务组通过本地网络访问,免重复下载;
- 资源节省:缓存层内存占用降低60%–80%;
- 极速启动:新开服业务可秒级挂载公共缓存,实现秒级启动。
性能与成本收益
经一年以上生产验证,Fluid + AlluxioRuntime组合不仅突破I/O瓶颈,更带来显著业务价值:
1. 性能维度:12倍启动加速,Serverless真正落地
- 基线(直连CubeFS):平均耗时36分钟;
- 传统Alluxio:缩短至14分钟;
- Fluid智能预读:降至3分钟;
- 收益:12倍性能提升,使Serverless算力具备生产可用性。
2. 成本维度:TCO显著降低,消除资源碎片
- 存储成本下降:跨Namespace共享机制避免Base Model重复缓存,单份缓存支撑上百推理Pod,大幅削减内存开销;
- GPU利用率提升:“潮汐式”伸缩配合3分钟极速启动,GPU闲置率降低约20%。
3. 稳定性维度:化解“惊群效应”,保障高并发
- 保护底层存储:Fluid作为流量“挡板”,拦截数百Pod并发请求,彻底规避对象存储带宽限流与过载风险;
- 推理吞吐稳定:I/O延迟由毫秒级(ms)降至微秒级(μs),保障P99延迟稳定性。
4. 效率维度:算法团队“零感知”体验
- 接口统一:无论底层是S3、HDFS或CubeFS,工程师均可像操作本地文件一样使用PVC挂载目录,无需引入SDK;
- 环境一致性:开发(Jupyter)与生产(Serverless)共用同一Dataset定义,消除“开发能跑、上线报错”问题。
结语
网易游戏通过Fluid实践,成功构建高效、弹性、低成本的大模型推理数据基础设施,有效应对GPU资源紧张、业务峰值差异与弹性伸缩困难等挑战,为游戏行业探索AI原生体验提供了坚实支撑。
在游戏与AI深度融合的当下,现代化基础设施已成为创新基石。Fluid作为云原生数据编排代表,在网易游戏的成功落地,为行业提供了可复用的技术范式。“以数据为中心”的架构设计,正成为企业降本增效、构建核心竞争力的关键路径,推动游戏行业迈向更智能、个性化与沉浸式的新阶段。
廖海峰(Senior Infrastructure Engineer):负责网易互娱AI基础设施平台的算力构建与稳定性保障,致力于为大规模游戏AI业务提供坚实算力底座与服务支撑。
张翔(Head of AI Infrastructure):负责网易互娱AI基础设施平台的技术演进与架构设计,聚焦高性能、高可用、低成本AI基础设施建设。

