【新智元导读】当多数图像AI还停留在「会生成、不会懂空间」的阶段,京东开源JoyAI-Image-Edit,把图像编辑从平面修图推向空间智能,也让外界第一次看清:京东的AI布局,从来不是追风口,而是死磕自己最有胜算的真实场景。
全球首个空间智能开源模型
JoyAI-Image-Edit是京东探索研究院于4月初开源的图像编辑模型,采用Apache 2.0协议释出。其创新性在于构建了首个将空间智能融入架构底层的统一多模态系统,通过80亿参数多模态语言模型与160亿参数扩散Transformer的深度耦合,实现从指令解析到图像生成的全流程空间意图传导。系统已支持ComfyUI,兼容Diffusers模型权重与推理流程。
代码库:https://github.com/jd-opensource/JoyAI-Image | 体验地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space | 开源权重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit
该模型的核心突破是建立"理解-生成-编辑"闭环:空间理解驱动可控生成,视角变换又为空间推理提供新证据。模型支持三大空间编辑范式:
相机控制:精准视角变换
通过自然语言指令(如"相机右偏30度、下俯15度")即可生成几何关系正确的多视角图像。透视、遮挡及光影逻辑均严格遵循三维空间规则,告别传统模型中的画面失真问题。
![]() |
编辑指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°.
物体旋转:实现空间漫游
支持物体连续视角移动,生成逻辑连贯的多视角序列。例如指定"旋转运动鞋展示正面"或"旋转人物展示左后侧",系统能维持场景物理一致性,如同佩戴虚拟相机在真实三维空间中行走。
![]() |
编辑指令:Rotate the sneaker to show the front view.
空间关系操控:精准物体编辑
对场景内物体进行移动、缩放时,能保持整体结构稳定。遮挡关系自然合理,光影过渡平滑,彻底解决传统方案中的变形错位问题。典型用例包括物品入盒、车辆移动等操作。
![]() |
编辑指令:Move the coffee into the red box
在与竞品模型的横评中,JoyAI-Image-Edit在空间一致性上表现突出,生成视角能有效消除复杂空间关系的歧义,为真实生产环境提供可靠支持。同时兼容15类通用编辑能力,在空间推理与长文本渲染方面具有显著优势。
电商与具身智能的破局关键
该技术直击京东核心业务场景:
电商领域:商品主图可自动衍生多角度、多场景版本,保持商品细节真实性,大幅降低重拍与人工修图成本。对服务百万商家的京东而言,这是供应链基础设施级的能力。
具身智能领域:为空间理解提供关键支撑。通过自然语言指令(如"机器人左手举起来")即可操控指定物体的动作姿态,在实测中完整保留背景环境与物理合理性,为机器人提供高质量训练数据。
战略级开源意义
JoyAI-Image-Edit的Apache2.0协议开源,将空间智能技术门槛大幅降低。开发者可直接用于:
- 电商从业者:优化商品展示流程
- 工业设计师:构建三维可视化工具
- 机器人团队:强化视觉感知底座
- 学术界:拓展空间智能研究边界
此举体现京东AI战略的核心逻辑:聚焦零售、物流、工业及具身智能等实体场景,将AI深度扎入产业土壤。近期京东已密集推出JoyAI-LLM Flash大模型、JoyInside具身智能等产品,并建设全球规模最大的具身智能数据采集中心。其竞争力不在于参数比拼,而在于场景落地能力与价值转化效率。
当行业仍在云端争夺算力高地,京东选择在实体经济中淬炼AI——用场景定义技术,用产业验证价值。空间智能的时代帷幕,正在这样的实践中徐徐拉开。




