大数跨境

AI造了个"无限世界":一张照片,开进永不重复的虚拟城市

AI造了个"无限世界":一张照片,开进永不重复的虚拟城市 洞见畏来
2026-06-11
0
导读:🚗 AI造了个"无限世界":一张照片,开进永不重复的虚拟城市当世界模型真正跑通API的那一天,我们可能


当世界模型真正跑通API的那一天,我们可能终于摸到了"物理AI"的门槛——而Decart的Oasis 3,正在试图推开这扇门。


一、一张照片,开启无限里程

你有没有想过,用一张街景照片,就能生成一个可以无限开下去的虚拟城市?

这不是游戏概念片,是Decart最新发布的产品——Oasis 3。这家成立仅两年的AI初创公司,刚刚把它送上了API,每秒收费0.02美元,开发者可以直接调用。

Google的Genie 3、李飞飞World Labs的Marble不同,Oasis 3主打一个"真到离谱"。前摄像头+双侧摄像头的多视角画面,光影、路面、建筑细节都相当扎实。我看过实机测试——一张"纽约夏日清晨"的prompt,开头几秒真的像站在曼哈顿街头。

但问题是:你得一直往前开。一旦掉头,刚才那个路口就没了。整个世界像梦一样,在你身后悄悄重组。


二、4亿估值、300亿融资,背后站着谁

Decart这次不是画饼。

就在几周前,这家公司刚完成3亿美元融资,估值飙到近40亿美元。投资方名单相当豪华:

投资方 类型 潜在关联
Toyota 战略投资 自动驾驶仿真需求
Adobe 战略投资 内容创作工具生态
eBay 战略投资 电商/直播场景(已有合作)
Nvidia 追加投资 算力基础设施绑定

CEO Dean Leitersdorf的说法很直白:这些战略投资方都是潜在大客户。丰田要测自动驾驶的极端场景,Adobe想探索创意工具,eBay已经在用Decart的视频模型Lucy做直播和电商内容了。

对了,Decart透露自己成立至今总共烧的钱还不到1亿美元。在AI这个烧钱的行业里,这个效率确实有点东西。


三、为什么比别人便宜一个数量级

Oasis 3能跑起来的核心,不是模型本身,而是Decart的DOS(Decart Optimization Stack)

这套优化栈从软件层一路捅到硬件层,专门解决一件事:让大模型在Nvidia、Amazon、Google的硬件上跑得又快又便宜。Leitersdorf的原话是:"比行业其他方案便宜一个数量级以上"

这意味着什么?

  • 别人跑不起的长场景,Decart能跑
  • 别人只能做10秒demo,Decart敢说"无限生成"
  • 开发者用API调用的成本,降到了可以接受的范围

定价策略也很有意思:$0.02/秒,按秒计费,用多少付多少。企业客户按场景谈价。这种模式走的是OpenAI当年用API孵化开发者生态的老路——Leitersdorf自己也承认,他的野心就是"在世界模型领域复制OpenAI在LLM上做的事"。


四、但别急着吹,问题很现实

我直接说缺点,因为记者实机测试暴露的问题,比公关稿更值得关注。

问题一:世界会"漂移"

你让模型生成一条纽约街道,开头真的很纽约。但开出去几百米,建筑风格就开始变得"像任何一座西方城市"。再开远一点,完全不是纽约了。如果你掉头想回刚才的路口——抱歉,那个路口已经不存在了。整个世界被重新生成了。

问题二:没有物理

你的车可以直接穿过其他车。不是撞上去,是穿过去。模型根本不知道那里有物体。Leitersdorf自己也承认这是**"我们目前正在攻克的主要研究问题"**,原因很现实:"好驾驶的数据远多于事故数据"。

问题三:操控延迟

方向盘不太跟手,车经常不听使唤。这个问题其他世界模型也有,但Oasis 3没例外。

为什么会出现这些问题?本质是自回归架构的代价:模型一帧一帧生成,每帧大约8000个token,每秒跑几十帧就是每秒几十万token。上下文窗口被迅速填满,前面的记忆被挤掉,一致性就崩了。

Leitersdorf说团队正在研究两件事:

  1. 更长的上下文窗口,存更多token
  2. 把记忆压缩,用更少的token记住更多内容

下一代版本还会支持用视频而不是图片来启动世界生成,这可能会改善初始一致性。


五、世界模型,还没到"好用"的时候

说实话,现在的Oasis 3更像是一个"令人印象深刻的半成品"

它能做到的事情足够惊艳:一张照片生成可交互的3D驾驶世界,实时渲染,多机位视角,成本还比别人低。这些确实是工程上的突破。

但它做不到的事情同样关键:保持一致性、理解物理规则、稳定操控。这些问题不是Decart一家的问题,是整个世界模型领域都在面对的瓶颈。Google Genie 3、World Labs Marble、Luma、Runway,各有各的局限。

Leitersdorf的乐观在于开发者生态。他认为,当100个开发者拿到API,就会冒出100个出人意料的用法。"三个月后再聊,你会看到100个不同的应用"。

这话有点耳熟。2015年OpenAI放出GPT-2 API的时候,也是这套说法。后来确实发生了。但世界模型和语言模型有一个根本区别:LLM说错一句话问题不大,自动驾驶仿真说错一个物理规则,代价可能是人命


六、结语:一个技术路线的赌注

Decart的故事,本质上是一个垂直整合的赌注

他们赌的是:谁能在算力效率上做到极致,谁就能先把世界模型做到"可用"级别,然后靠API孵化生态,最后定义行业标准。40亿估值、Toyota站台、Nvidia追加投资,说明资本买账这个逻辑。

但Oasis 3的实测告诉我们:世界模型的"可用",和"能跑起来"之间,还有一段相当长的路要走。一致性、物理、长程记忆——这些才是真正的硬骨头。

不过,至少有人开始啃了。而且,他们让所有人都能透过API看到,这块骨头到底有多硬。

这比在论文里吹数字,诚实得多。


【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633