大数跨境

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2! 量子位
2026-04-11
3
导读:多智能体+记忆+Skills三件套让模型「记吃记打」
GEMS团队 投稿

当前多模态生成模型在主流任务中表现良好,但在复杂指令及下游任务上仍显不足。

近期流行的Agent框架如OpenClaw、Claude Code在复杂任务中表现突出。上海人工智能实验室联合南京大学、香港中文大学及上海交通大学将此类经验应用于多模态生成领域。

团队提出GEMS(Agent-Native Multimodal Generation with Memory and Skills),激发小模型潜力,使6B模型在部分任务上超越Nano Banana 2。

GEMS:Agent-Native Multimodal Generation with Memory and Skills

受OpenClaw等Agent系统启发,研究团队将成功经验引入多模态生成领域以解决上述问题。

GEMS包含三大特性:

Agent Loop:构建结构化多智能体协作框架,通过闭环优化使生成结果逐步精确对齐。

Agent Memory:采用分层压缩策略保留历史轨迹中的事实性要素,同时将冗长思维链压缩为精炼经验,显著降低Token消耗并提升长时迭代效率。

Agent Skill:建立可扩展专家知识库,通过按需加载详细指令,大幅拓展系统能力边界。

实验分析

研究团队在五项主流任务与四项下游任务中进行验证,主要结论如下:

基于Z-Image-Turbo,主流任务平均提升14.22%,下游任务超越最佳基线8.92%,充分验证GEMS框架有效性。

进一步分析

各模块贡献度具体评估如下:

左图显示逐步集成Agent Loop、Agent Memory及Agent Skill后性能持续提升,6B的Z-Image-Turbo在GenEval2上成功超越Nano Banana 2;右图证实思维链压缩为经验的有效性。

轮次分析表明GEMS兼具性能与效率优势。

消融实验揭示Memory与Skill模块通过优化迭代质量,有效降低平均生图轮次。

技能加持:生成更有艺术感

GEMS的Agent Skills模块能根据任务自主触发特定技能,显著提升生成质量。

案例1:山脉日出

无技能:山脉写实但光影平淡;启用Aesthetic Drawing技能后,光影层次丰富,画面艺术感显著增强。

案例2:漂浮的书

无技能:书本漂浮效果简单;触发Creative Drawing技能后,书页飞舞结合星空点缀,整体呈现梦幻视觉效果。

这些案例直观展示GEMS技能模块使生成结果兼具准确性与叙事生动性。

结语

GEMS证明:智能体化管理策略能有效弥补基础模型缺陷。通过赋予模型“长记忆”与“学技能”能力,轻量化开源模型在复杂任务中亦可媲美甚至超越闭源模型,为多模态生成技术发展提供重要范式参考。

论文地址:
https://arxiv.org/abs/2603.28088
项目主页:
https://gems-gen.github.io/
代码仓库:
https://github.com/lcqysl/GEMS

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15000
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读176.1k
粉丝0
内容15.0k