大数跨境

阿里首个世界模型:快乐…生蚝

阿里首个世界模型:快乐…生蚝 量子位
2026-04-17
3
导读:一句话,造一个可实时交互自带BGM的数字世界
量子位 | QbitAI

近期,全球多个世界模型成果密集发布。阿里ATH(Alibaba Token Hub)事业群成立满一个月之际,推出全球首个支持主动式实时交互的世界模型产品HappyOyster(快乐生蚝)。

HappyOyster搭载原生多模态架构,支持多模态输入与音视频联合生成,提供漫游(Wander)、导演(Direct)、创造(Create)和分享(Share)四大核心功能。

在漫游模式下,用户通过WASD或方向键实时控制角色位移及镜头视角,沉浸式探索AI生成的可交互世界。以滑雪场景为例:输入Prompt即可实时穿梭雪场。

导演模式实现动态视频创作。区别于传统“输入prompt→等渲染”流程,用户可在生成过程中随时通过文字指令调整镜头、色彩及剧情走向,画面即时响应。

创造模式将生成体验从“生成视频”升级为“创造完整世界”,用户作为深度参与者全程掌控内容。所有生成世界均支持共享,供他人探索或二次创作。

目前HappyOyster需通过申请邀请码体验,量子位已获授权进行首发体验。

核心功能详解

漫游模式支持文本及图片输入,用户可分别设定角色(Character)与场景(Scene),自由切换第一/第三人称视角。

生成世界包含动态NPC与背景音乐,沉浸感显著。例如生成海边小镇后,系统会自动录制探索过程,视频可在个人主页查看下载。

当前分辨率为480p,单次探索时长限制为1分钟。该模式兼容多种视觉风格,如像素风场景实现流畅转换。

画廊(Gallery)提供用户共享的世界库,支持即时探索油画等艺术风格作品。

导演模式可调整分辨率(720p/480p),设定叙事风格(Regular/Peaceful/Dramatic)及运镜方式(Steady/Fast)。用户输入新指令后,视频内容实时更新。例如,在熟睡场景中添加“猫跳上床”的指令,系统立即生成相应画面。

该技术适用于文旅展陈、机器人训练、教育演练等需“实时感知—实时生成—实时反馈”闭环的场景,通过连接摄像头、传感器等设备,动态生成对应交互内容。

HappyOyster的核心能力在于对开放世界状态进行持续建模与响应,未来有望延伸至线下娱乐、数字人陪伴等智能空间交互领域。

原生多模态架构与流式生成世界模型

作为阿里今年3月16日成立的创新事业群,ATH涵盖通义实验室、MaaS业务线等团队,聚焦Token创造、输送及应用。

长时世界建模

采用长时世界演化建模技术,基于海量长视频数据捕捉真实世界运行规律。通过持续状态复用机制及历史注意力状态传递,解决内容漂移与结构退化问题,确保长时间生成的高保真与一致性。

实时交互控制响应

在建模初期引入文本、Action等多模态控制信号,实现交互指令对世界演化的持续影响。模型通过对世界状态的高度压缩隐式建模,显著降低单步计算开销,支持低延迟推进及交互信号在线注入。

音视频联合生成

突破传统分阶段建模局限,采用统一框架同步生成视觉与听觉信号。音频作为世界动态参与联合生成,自然建立跨模态时间对齐,保障音画同步与语义一致性。

三大技术突破使HappyOyster从“生成像素”升级为“可进入世界”,打破用户与数字世界的“第四面墙”。团队强调:下一代生成式AI将构建具备空间、物理、因果关系的完整数字世界,支持用户推门而入、亲手改写及共享探索。

其命名灵感源自莎士比亚名句“The world is your oyster. Open it.”,象征通过一句话开启可漫游、可导演、可分享的数字世界。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15042
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读182.6k
粉丝0
内容15.0k