大数跨境

一句话造世界!开发者用10天婚假爆肝,让AI小镇真正「活」了过来

一句话造世界!开发者用10天婚假爆肝,让AI小镇真正「活」了过来 新智元
2026-05-01
3

新智元报道

编辑:LRST

【新智元导读】2023年斯坦福「AI小镇」项目引发关注,后续诞生大量类似项目,但均受限于人工搭建的固定世界框架。独立开发者利用10天婚假开发WorldX系统:输入一句话,5分钟即可自动生成完整AI世界,包含地图、角色、动画及自主对话能力,AI角色能形成记忆并产生涌现行为。

输入语句:"夜晚的宋朝繁华夜市,有当铺掌柜、算命先生、捕快、小偷、酒鬼,还有一个刚从现代穿越来的网红。"

5分钟后生成工笔画风格夜市地图:当铺、算命摊、菩萨像精准定位。6个角色自主活动

  • 当铺掌柜念叨失窃事件
  • 算命先生等候顾客
  • 捕快巡逻搜寻线索
  • 小偷混迹人群试探
  • 酒鬼醉晃街巷
  • 穿越网红受众人打量

所有行为由AI角色自主决策:捕快盘查嫌疑人、小偷找借口脱身、算命先生警示网红、酒鬼撞翻招牌引发争吵。

项目地址: https://github.com/YGYOOO/WorldX

技术解析: https://zhuanlan.zhihu.com/p/2032410449854068566

AI小镇的发展瓶颈

2023年斯坦福"Generative Agents"论文通过25个AI角色在虚拟小镇的自主社交引爆Agent研究热潮。随后ai-town、Microverse等项目相继涌现,但均存在核心局限:

世界构建完全依赖人工:地图需手绘,角色逐个配置,场景交互需编排。更换"赛博朋克拉面馆"等新设定需重新开发。学术界"World Craft"研究仅支持室内场景,且地图风格单一。

实现"任意一句话生成任意世界"的愿景,WorldX首次突破这一限制。

动态世界生成技术

WorldX工作流程简洁高效:

  • 输入场景描述(如"末日便利店幸存者"、"跨作品人物共居小镇")
  • 5分钟生成完整AI世界:含美术风格、角色动画、运行逻辑

世界生成后进入动态模拟:

  • 角色自由走动、决策、实时互动
  • 头顶显示对话气泡与内心独白
  • 形成记忆网络、产生情绪波动、进行每日反思
  • 真实时间流转(如夜市自动收摊重开)

用户作为"上帝"可操作:

  • 全局广播事件(如"突然下雨")
  • 向角色耳语/托梦
  • 实时修改角色人设
  • 架空对话不扰主线

创新性多时间线机制支持历史回放与平行宇宙推演。

突破性技术:色彩标注系统

可行走区域解析

传统方案依赖多模态模型直接报坐标失败——模型擅长语义理解却不具备测量精度。WorldX创新采用:

  1. 指令文生图模型用半透明青色覆盖可行走区域
  2. 通过像素级色差对比计算精确坐标:
    • 强证据:ΔG ≥ 18且ΔB ≥ 18且ΔR ≤ 8
    • 弱证据:ΔG ≥ 10且ΔB ≥ 10且ΔR ≤ 14

该方法将AI不确定性输出转化为确定性计算,为关键突破。巧合的是,WorldX开源后Google DeepMind发布的Vision Banana论文验证了色彩编码在视觉任务中的有效性。

多色彩区分机制

功能区识别采用色彩分级策略:

  • 当铺涂红色、算命摊涂蓝色、菩萨像涂黄色
  • 单次标注限4个元素避免色彩冲突

配合"生成→审查→约束累积"循环:

  • 每轮生成结果经LLM结构化审查
  • 问题转化为中文约束追加至后续指令
  • 如漏斗般逐步收敛至精确结果

完整生成管线含6步骤(地图生成→功能定位→像素计算→坐标映射),token成本控制在3~18万/世界。

AI角色生命模拟引擎

系统以Tick为时间单位运行(1 Tick=游戏内30分钟):

  1. 决策波:角色并行感知环境→构建动作菜单→LLM决策
  2. 对话调度:贪心算法分配会话
  3. 动作执行:非对话串行/对话并行
  4. 微反思:模拟小时级情绪调整
  5. 跨日转场:深度反思与记忆衰减

记忆系统采用四维加权模型:

score = relevance × 3 + recency × 2 + importance × 2 + emotionalIntensity × 1

避免向量数据库黑盒问题,支持可调试优化。记忆具有衰减、巩固、淘汰的完整生命周期。

双维度情绪模型(Valence效价 + Arousal唤醒度)实现:兴奋、焦虑、平和等复杂状态,仅情绪显著波动时对外可见。

未来发展方向

  • 身临其境体验:用户角色融入AI世界互动
  • 世界画廊:社区化共享AI世界库
  • 动态视觉小说:故事大纲自动演变为叙事作品
  • 无限地图扩展:角色近边界时自动生成新区域
  • 跨世界联动:多世界角色流动交互

WorldX将斯坦福"AI角色涌现行为"的理论验证,推进至"大众化AI世界创造"实践阶段。开发者利用10天婚假完成从管线构建、引擎开发到客户端集成的全栈开发,彰显新一代开发范式效能。

在技术哲学层面,WorldX引发思考:当虚拟世界趋近真实且产生意识,虚拟与真实的界限或将重构。而可预见的未来,个人专属AI世界有望成为数字生活新常态。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15944
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读181.3k
粉丝0
内容15.9k