元象正式开源XVERSE-Ent系列泛娱乐大模型
元象XVERSE是国内领先的AI与3D技术服务公司,致力于打造AI驱动的3D内容生产与消费一站式平台。作为长期深耕开源生态的践行者,元象已开源XVERSE-65B(国内最大参数Dense模型)、XVERSE-MoE-A36B(国内最大参数MoE模型)、XVERSE-Long(世界最长上下文模型)及XVERSE-V多模态模型等重量级通用底座。
近日,元象正式开源基于混合专家(MoE)架构的XVERSE-Ent系列中英双语大模型,专为泛娱乐场景设计,覆盖游戏叙事、社交互动、小说剧本创作等核心应用。
依托独创的MoE热启动技术与三阶段训练策略,XVERSE-Ent在大幅降低部署门槛的同时,完整保留通用能力,并针对性解决泛娱乐场景中长期存在的角色遗忘、剧情逻辑断层等行业痛点。
泛娱乐场景需要“懂戏”的底座
通用大模型在长篇叙事或多轮对话中易出现人设崩塌、逻辑跳跃等问题,影响沉浸感。XVERSE-Ent通过从数据底层到模型架构的全方位重塑,实现角色一致性、剧情连贯性与题材风格适配三大突破:
- 稳定锁死角色性格、记忆与语言风格,保障长周期交互中人设不倒;
- 精准识别伏笔、人物关系网等复杂叙事结构,生成逻辑严密的后续内容;
- 支持古风、科幻、都市等多元语境,自动调用对应背景知识库,实现风格化表达。
XVERSE-Ent系列包含两个版本:中文版XVERSE-Ent-A4.2B(25B总参数)与英文版XVERSE-Ent-A5.7B(36B总参数),均采用MoE稀疏激活架构,支持单卡部署,显著降低中小开发者使用门槛。
稀疏激活架构重塑训练效率
XVERSE-Ent的核心技术是MoE热启动(Sparse Upcycling):以成熟稠密模型为基础,高效转化为大规模MoE模型,无需从零训练,兼顾能力继承与扩展升级。
该技术包含两大关键设计:
- FFN细粒度拆分:将前馈网络拆解为多个可独立复制/调用的专家子网络,提升显存利用效率与硬件适配性;
- Attention层复用:直接沿用原Dense模型的注意力结构,继承其上下文理解与长程依赖建模能力,避免能力退化。
实验证明,细粒度拆分在专家规模自由度、显存占用控制及整体性能上均优于粗粒度方案,为高参数量模型在有限硬件上的高效运行奠定基础。
三阶段演进平衡通用与垂直能力
XVERSE-Ent采用S0→S1→S2三阶段训练流程,系统化融合通用语言能力与泛娱乐领域专精:
- S0(能力重建):适配MoE新架构,恢复模型原有通用语言能力;
- S1(语言倾斜):强化目标语言(中文/英文)建模精度,夯实语境理解基础;
- S2(领域增强):注入元象沉淀的高质量泛娱乐数据(小说、剧本、游戏对话),实现领域深度适配。
两款模型均在近万亿token数据上完成继续预训练,保持8K上下文窗口,满足长文本生成需求。中文版XVERSE-Ent-A4.2B由XVERSE-MoE-A4.2B直接增强而来;英文版XVERSE-Ent-A5.7B则由Dense底座经MoE热启动改造后完成全链路优化。
极致优化的中英双语实战表现
评测覆盖小说(fiction)、对话(conversation)及通用网页(webcc)文本,核心指标为困惑度(Perplexity)。结果表明:
- XVERSE-Ent在泛娱乐核心任务中表现优异;
- MMLU、数学与代码等通用基准能力保留率超98%;
- 中文版擅长武侠、修仙、宫斗等本土题材,文化契合度高;
- 英文版依托出海经验,精准把握西方文化语境与表达习惯。
XVERSE-Ent让中小开发者无需自建算法团队或采购高端算力,即可获得企业级泛娱乐AI生成能力,切实降低行业创新门槛,加速AI在游戏、社交、IP开发等场景的规模化落地。
参考资料:

