京东发力“空间智能”图像模型,一手开源、一手落地


大厂AI竞争加剧,京东聚焦供应链优势推进具身智能,实现AI与物理世界深度融合。新推出的JoyAI-Image-Edit图像模型,以空间智能为核心,专为电商和具身智能训练场景优化。
空间智能突破:图像编辑新范式
传统图像编辑模型常出现比例失真、遮挡错误等问题,根源在于缺乏空间理解能力。JoyAI-Image-Edit将空间编辑作为核心能力,支持物体移动、旋转、视角变换等操作,可精准执行“移动0.3米”等几何参数指令,实现可控编辑。
模型采用MLLM+VAE+扩散模型统一架构,通过300万规模的OpenSpatial-3M数据集强化空间训练。在13项Benchmark测试中,其在空间理解层面的9项指标平均分达64.4,追平Gemini 2.5 Pro闭源模型。
实测显示,即使调整小比例不规则物体,模型也能保持结构一致性,有效减少透视错乱。在SpatialEdit-Bench测试中,物体空间编辑精度0.649,超越Veo3.1等视频世界模型,刷新开源图像编辑模型SOTA。
▲输入图与指令(左)、输出图(右)
电商与具身场景的实践价值
空间能力为高依赖真实世界的场景带来直接价值:
电商领域:商品多视角生成、虚拟试衣等任务实现高效落地。服饰类商品可一键调整折叠角度或摆放方向;家电家具可自动“换位”展示多角度效果,结合文字标注、色彩微调等精修功能,大幅降低拍摄成本。
▲输入图(左)、输出图(右)、指令:Rotate the sneaker to show the front view
具身智能:生成空间一致性的训练数据,解决机器人行业数据采集成本高、周期长难题。通过新视角辅助空间推理,提升机器人的环境认知能力。
开源布局与产业闭环
开源JoyAI-Image-Edit是京东实体化AI布局的关键一环。此前已开源高效轻量的JoyAI-LLM Flash模型,降低开发门槛。同时建设全球最大的具身智能数据采集中心,并通过JoyInside将AI能力嵌入家电、机器人等终端设备,形成“模型-数据-终端”闭环。
京东AI战略:开源落地并举
京东选择务实推进AI落地:在模型侧持续开放能力;在场景侧深度嵌入供应链与物理世界。依托供应链核心优势,将AI转化为商品、物流与设备中的“增长引擎”,实现能力迭代与价值释放。


