又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？- 大数跨境

智东西

2026-04-10

导读：京东发力“空间智能”图像模型，一手开源、一手卷落地。

京东发力“空间智能”图像模型，一手开源、一手落地

大厂AI竞争加剧，京东聚焦供应链优势推进具身智能，实现AI与物理世界深度融合。新推出的JoyAI-Image-Edit图像模型，以空间智能为核心，专为电商和具身智能训练场景优化。

传统图像编辑模型常出现比例失真、遮挡错误等问题，根源在于缺乏空间理解能力。JoyAI-Image-Edit将空间编辑作为核心能力，支持物体移动、旋转、视角变换等操作，可精准执行“移动0.3米”等几何参数指令，实现可控编辑。

模型采用MLLM+VAE+扩散模型统一架构，通过300万规模的OpenSpatial-3M数据集强化空间训练。在13项Benchmark测试中，其在空间理解层面的9项指标平均分达64.4，追平Gemini 2.5 Pro闭源模型。

实测显示，即使调整小比例不规则物体，模型也能保持结构一致性，有效减少透视错乱。在SpatialEdit-Bench测试中，物体空间编辑精度0.649，超越Veo3.1等视频世界模型，刷新开源图像编辑模型SOTA。

▲输入图与指令（左）、输出图（右）

空间能力为高依赖真实世界的场景带来直接价值：

电商领域：商品多视角生成、虚拟试衣等任务实现高效落地。服饰类商品可一键调整折叠角度或摆放方向；家电家具可自动“换位”展示多角度效果，结合文字标注、色彩微调等精修功能，大幅降低拍摄成本。

▲输入图（左）、输出图（右）、指令：Rotate the sneaker to show the front view

具身智能：生成空间一致性的训练数据，解决机器人行业数据采集成本高、周期长难题。通过新视角辅助空间推理，提升机器人的环境认知能力。

开源JoyAI-Image-Edit是京东实体化AI布局的关键一环。此前已开源高效轻量的JoyAI-LLM Flash模型，降低开发门槛。同时建设全球最大的具身智能数据采集中心，并通过JoyInside将AI能力嵌入家电、机器人等终端设备，形成“模型-数据-终端”闭环。

京东选择务实推进AI落地：在模型侧持续开放能力；在场景侧深度嵌入供应链与物理世界。依托供应链核心优势，将AI转化为商品、物流与设备中的“增长引擎”，实现能力迭代与价值释放。

【声明】内容源于网络

智东西

各类跨境出海行业相关资讯

内容 0

粉丝 0

智东西各类跨境出海行业相关资讯

总阅读0

粉丝0

内容0