AI造了个"无限世界"：一张照片，开进永不重复的虚拟城市- 大数跨境

首页

AI造了个"无限世界"：一张照片，开进永不重复的虚拟城市

洞见畏来

2026-06-11

导读：🚗 AI造了个"无限世界"：一张照片，开进永不重复的虚拟城市当世界模型真正跑通API的那一天，我们可能

当世界模型真正跑通API的那一天，我们可能终于摸到了"物理AI"的门槛——而Decart的Oasis 3，正在试图推开这扇门。

一、一张照片，开启无限里程

你有没有想过，用一张街景照片，就能生成一个可以无限开下去的虚拟城市？

这不是游戏概念片，是Decart最新发布的产品——Oasis 3。这家成立仅两年的AI初创公司，刚刚把它送上了API，每秒收费0.02美元，开发者可以直接调用。

和Google的Genie 3、李飞飞World Labs的Marble不同，Oasis 3主打一个"真到离谱"。前摄像头+双侧摄像头的多视角画面，光影、路面、建筑细节都相当扎实。我看过实机测试——一张"纽约夏日清晨"的prompt，开头几秒真的像站在曼哈顿街头。

但问题是：你得一直往前开。一旦掉头，刚才那个路口就没了。整个世界像梦一样，在你身后悄悄重组。

二、4亿估值、300亿融资，背后站着谁

Decart这次不是画饼。

就在几周前，这家公司刚完成3亿美元融资，估值飙到近40亿美元。投资方名单相当豪华：

投资方	类型	潜在关联
Toyota	战略投资	自动驾驶仿真需求
Adobe	战略投资	内容创作工具生态
eBay	战略投资	电商/直播场景（已有合作）
Nvidia	追加投资	算力基础设施绑定

CEO Dean Leitersdorf的说法很直白：这些战略投资方都是潜在大客户。丰田要测自动驾驶的极端场景，Adobe想探索创意工具，eBay已经在用Decart的视频模型Lucy做直播和电商内容了。

对了，Decart透露自己成立至今总共烧的钱还不到1亿美元。在AI这个烧钱的行业里，这个效率确实有点东西。

三、为什么比别人便宜一个数量级

Oasis 3能跑起来的核心，不是模型本身，而是Decart的DOS（Decart Optimization Stack）。

这套优化栈从软件层一路捅到硬件层，专门解决一件事：让大模型在Nvidia、Amazon、Google的硬件上跑得又快又便宜。Leitersdorf的原话是："比行业其他方案便宜一个数量级以上"。

这意味着什么？

别人跑不起的长场景，Decart能跑
别人只能做10秒demo，Decart敢说"无限生成"
开发者用API调用的成本，降到了可以接受的范围

定价策略也很有意思：$0.02/秒，按秒计费，用多少付多少。企业客户按场景谈价。这种模式走的是OpenAI当年用API孵化开发者生态的老路——Leitersdorf自己也承认，他的野心就是"在世界模型领域复制OpenAI在LLM上做的事"。

四、但别急着吹，问题很现实

我直接说缺点，因为记者实机测试暴露的问题，比公关稿更值得关注。

问题一：世界会"漂移"

你让模型生成一条纽约街道，开头真的很纽约。但开出去几百米，建筑风格就开始变得"像任何一座西方城市"。再开远一点，完全不是纽约了。如果你掉头想回刚才的路口——抱歉，那个路口已经不存在了。整个世界被重新生成了。

问题二：没有物理

你的车可以直接穿过其他车。不是撞上去，是穿过去。模型根本不知道那里有物体。Leitersdorf自己也承认这是**"我们目前正在攻克的主要研究问题"**，原因很现实："好驾驶的数据远多于事故数据"。

问题三：操控延迟

方向盘不太跟手，车经常不听使唤。这个问题其他世界模型也有，但Oasis 3没例外。

为什么会出现这些问题？本质是自回归架构的代价：模型一帧一帧生成，每帧大约8000个token，每秒跑几十帧就是每秒几十万token。上下文窗口被迅速填满，前面的记忆被挤掉，一致性就崩了。

Leitersdorf说团队正在研究两件事：

更长的上下文窗口，存更多token
把记忆压缩，用更少的token记住更多内容

下一代版本还会支持用视频而不是图片来启动世界生成，这可能会改善初始一致性。

五、世界模型，还没到"好用"的时候

说实话，现在的Oasis 3更像是一个"令人印象深刻的半成品"。

它能做到的事情足够惊艳：一张照片生成可交互的3D驾驶世界，实时渲染，多机位视角，成本还比别人低。这些确实是工程上的突破。

但它做不到的事情同样关键：保持一致性、理解物理规则、稳定操控。这些问题不是Decart一家的问题，是整个世界模型领域都在面对的瓶颈。Google Genie 3、World Labs Marble、Luma、Runway，各有各的局限。

Leitersdorf的乐观在于开发者生态。他认为，当100个开发者拿到API，就会冒出100个出人意料的用法。"三个月后再聊，你会看到100个不同的应用"。

这话有点耳熟。2015年OpenAI放出GPT-2 API的时候，也是这套说法。后来确实发生了。但世界模型和语言模型有一个根本区别：LLM说错一句话问题不大，自动驾驶仿真说错一个物理规则，代价可能是人命。

六、结语：一个技术路线的赌注

Decart的故事，本质上是一个垂直整合的赌注。

他们赌的是：谁能在算力效率上做到极致，谁就能先把世界模型做到"可用"级别，然后靠API孵化生态，最后定义行业标准。40亿估值、Toyota站台、Nvidia追加投资，说明资本买账这个逻辑。

但Oasis 3的实测告诉我们：世界模型的"可用"，和"能跑起来"之间，还有一段相当长的路要走。一致性、物理、长程记忆——这些才是真正的硬骨头。

不过，至少有人开始啃了。而且，他们让所有人都能透过API看到，这块骨头到底有多硬。

这比在论文里吹数字，诚实得多。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633