大数跨境

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及 量子位
2026-03-18
3
导读:让生成/编辑/推理五大能力本地运行!
DeepGen团队 投稿
量子位 | 公众号 QbitAI

统一多模态生成编辑模型正加速走向“重器化”:动辄数十B参数,普通团队难以复现,个人本地部署门槛高。

近日,上海创智学院、复旦大学与中国科学技术大学等机构联合发布轻量级统一多模态生成编辑模型DeepGen 1.0

该模型仅5B参数(3B VLM + 2B DiT),集成图像生成、图像编辑、推理生成、推理编辑与文字渲染五大核心能力。

社区实测显示:在RTX 4060 Ti 16G显卡上,单图生成仅需约10秒,多项质量指标超越参数量大4倍的工业级模型。

团队同步开源完整训练与推理链路:涵盖预训练、监督微调(SFT)及强化学习(RL)全流程代码,以及高质量训练数据集;不同阶段模型权重均已公开,支持从零复现或垂直领域适配。其轻量化设计显著降低部署成本,实现家用硬件实时图像生成。

技术要点一览

  • 堆叠通道桥接(SCB)与隐式“Think Token”:实现VLM理解分支与DiT生成分支跨层高效融合;Think Token作为可学习隐式思维链,不增额外参数,缓解信息丢失与表征偏移,增强复杂指令推理能力。

  • 三阶段训练范式:预对齐 → 多任务联合微调 → RL对齐人类偏好并强化文本渲染能力。

  • MR-GRPO强化学习算法:融合pointwise与pairwise奖励模型,协同VLM偏好、OCR识别、CLIP语义相似度三大奖励函数,保障图文一致性与文字准确性。

开源统一多模态生成编辑模型的痛点

过去一年,该领域进展迅速,但仍面临三大瓶颈:一是工业级模型参数量大、训练推理成本高,复现难度极大;二是生成与编辑能力常由多个独立模型承担,系统复杂、维护成本高;三是缺乏完整开源训推流程与高质量训练数据,制约社区研究与落地。

DeepGen 1.0正是针对上述问题提出的轻量、统一、全开源解决方案。

DeepGen 1.0架构和训练范式

采用VLM-DiT双分支架构(3B VLM + 2B DiT):VLM分支负责多模态理解与知识注入;DiT分支在VLM条件引导下生成高质量图像;两者通过轻量encoder-based connector模块完成特征对齐。

在此基础上引入堆叠通道桥接(SCB),结合可学习Think Token,实现两分支深度融合,在几乎不增加参数前提下提升鲁棒性与推理能力。

训练策略分三阶段推进:先单独优化connector实现预对齐;再联合微调VLM与DiT,支持通用/推理/文本相关多任务;最后基于MR-GRPO开展强化学习,对齐人类偏好并精细化提升视觉表现与文字渲染精度。

训练数据融合真实图像、合成样本及精选开源数据集,覆盖通用生成/编辑、推理型生成/编辑、文字渲染及典型应用场景(如海报设计、人像生成)等多维度任务。

模型效果

定量评估

  • 通用生成与编辑

  • 推理生成

  • 推理编辑

生图效果展示

MR-GRPO

DeepGen引入MR-GRPO(Multi-Reward Group Relative Policy Optimization),在强化学习阶段混合使用pointwise与pairwise奖励模型,整合三类互补奖励信号:VLM pairwise偏好奖励(评估图文对齐与视觉质量)、OCR奖励(优化文字渲染准确率)、CLIP相似度(保障整体语义一致性)。

为抑制RL训练中通用能力退化与图像网格化现象,团队提出“辅助SFT Loss + KL正则化”双约束机制:前者提供高质量生成结果引导,锚定输出稳定性;后者约束去噪轨迹,防止偏离参考模型过远。二者协同使RL稳定扩展至1500步,文本渲染能力提升10%,综合指标提升1.5%。

实验证明:移除辅助SFT Loss后,模型约300步即出现性能崩塌,最终表现甚至低于RL训练前基线。两项约束缺一不可。

构建高效的全开源链路

在行业普遍转向闭源的背景下,DeepGen 1.0坚持全栈开源:训练代码、推理代码、全部模型权重(含diffusers格式)、高质量训练数据集均公开发布。研究者无需数百GPU集群,即可复现完整流程,或面向特定场景定制开发。

其5B参数量带来极低部署门槛——RTX 4060 Ti 16G即可10秒出图,填补了“小参数、强能力”模型的技术空白,为端侧设备实时生成与轻量部署提供了可行路径。

DeepGen 1.0的开源,补齐了统一多模态生成编辑模型的关键开源拼图。团队将持续迭代,推动该方向走向开源共建与产业落地。

论文标题:
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
论文链接:
https://arxiv.org/abs/2602.12205
代码地址:
https://github.com/deepgenteam/deepgen
模型权重:
https://huggingface.co/deepgenteam/DeepGen-1.0
模型权重(diffusers):
https://huggingface.co/deepgenteam/DeepGen-1.0-diffusers
训练数据:
https://huggingface.co/datasets/deepgenteam/DeepGen-1.0

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14882
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读152.9k
粉丝0
内容14.9k