Google发布新一代图像生成模型Gemini-2.5-flash-image-preview,实测表现亮眼
基于多维度实测对比,Gemini在图像编辑任务中展现SOTA级能力,尤其在主体一致性、风格迁移与多图融合方面表现突出
Google近日正式发布其最新图像生成与编辑模型gemini-2.5-flash-image-preview,即此前在社交平台X上广受关注的Nano Banana。该模型因出色的主体一致性与极快响应速度,在社区中迅速走红。发布后,其在Artificial Analysis图像编辑排行榜上以1212 ELO分位居榜首,被官方确认为当前SOTA级别的图像编辑模型,在角色一致性、自然语言指令理解、多图像融合等方面表现优异。
302.AI已第一时间接入该模型API,本文通过与阿里Qwen-Image-Edit、GPT-Image-1及Flux-Kontext-Max进行横向对比,从编辑质量、指令理解等维度评估其实际表现。
I. 实测模型基本信息
(1)各模型在302.AI平台的价格:
模型名称 |
302.AI内价格 |
gemini-2.5-flash-image-preview |
输入3 PTC/1M Tokens;输出30 PTC/1M Tokens,约合$0.03-0.05/次 |
Qwen-Image-Edit |
$0.05/次 |
GPT-Image-1 |
$0.03/次 |
Flux-Kontext-Max |
$0.03/次 |
(2)测评目标:
编辑质量与真实感:评估细节保留、色彩一致性、光影自然度及伪影情况。
指令理解与执行准确性:检验模型对文本或图像指令的解析与实现能力。
(3)测评工具:
gemini-2.5-flash-image-preview 和 Qwen-Image-Edit 使用 302.AI API超市→在线调试功能
GPT-Image-1 和 Flux-Kontext-Max 使用 302.AI 应用超市→绘图机器人
(4)测评方法:
所有案例采用统一英文提示词与原图,取首次生成结果,评测结果供参考。
Ⅱ. 测评案例
案例1:视角转换
提示词:Change the perspective to a high angle, looking down from above as if from the ceiling.
将视角切换为高角度,从上方俯视,就像从天花板往下看。
生成效果:
gemini-2.5-flash-image-preview
Qwen-Image-Edit
GPT-Image-1
Flux-Kontext-Max
测评点 |
gemini-2.5-flash |
Qwen-Image-Edit |
GPT-Image-1 |
Flux-Kontext-Max |
角度切换 |
★★★★★ |
★★★★★ |
★★★★★ |
★ |
环境/人物一致性 |
★★★★ |
★★★ |
★ |
★★★★★ |
简评 |
gemini-2.5-flash表现最佳,色彩与质感保留完整,仅右上角人物衣物还原有误;Qwen画面细节出现扭曲;GPT与Flux未能达成提示要求。 |
|||
案例2:重绘修改
提示词:将环境改为夜景,具真实光照与灯光;为女模特添加墨镜,男模特戴黑色棒球帽,两人鞋子改为红黑配色,其余元素保持不变。
生成效果:
gemini-2.5-flash-image-preview
Qwen-Image-Edit
GPT-Image-1
Flux-Kontext-Max
测评点 |
gemini-2.5-flash |
Qwen-Image-Edit |
GPT-Image-1 |
Flux-Kontext-Max |
人物一致性 |
★★★★★ |
★★★★ |
★★ |
★★★★★ |
环境修改 |
★★ |
★★★ |
★★★★ |
★★★ |
细节修改 |
★★★★ |
★★★★★ |
★★★★★ |
★★★★ |
简评 |
Qwen整体表现最佳,人物特征与细节保留准确,环境过渡自然,补光合理;但在“鞋子红黑配色”指令执行上仍有不足。 |
|||
案例3:文字信息添加
提示词:用该图制作Lululemon广告,包含品牌名与标语。
生成效果:
gemini-2.5-flash-image-preview
Qwen-Image-Edit
GPT-Image-1
Flux-Kontext-Max
测评点 |
gemini-2.5-flash |
Qwen-Image-Edit |
GPT-Image-1 |
Flux-Kontext-Max |
环境/人物一致性 |
★★★★★ |
★★★★★ |
★ |
★★★★★ |
文本准确性 |
★★★★ |
★ |
★★ |
★ |
排版美感 |
★★★★★ |
★★★ |
★★★★ |
★★★★★ |
简评 |
gemini-2.5-flash表现最佳,品牌标识准确,文案贴合品牌调性,字体排版美观,具备直接商用价值。 |
|||
案例4:风格迁移
提示词:将图中香蕉转换为空山基艺术风格——金属质感、未来感、机械美感,保持香蕉形状,周围元素不变。
空山基美学风格参考示例
生成效果:
gemini-2.5-flash-image-preview
Qwen-Image-Edit
GPT-Image-1
GPT-Image-1生成失败,疑似因IP保护机制触发。
Flux-Kontext-Max
测评点 |
gemini-2.5-flash |
Qwen-Image-Edit |
GPT-Image-1 |
Flux-Kontext-Max |
主体一致性 |
★★★★★ |
★★★★★ |
N/A |
★★★★★ |
风格还原 |
★★★★★ |
★★★★ |
N/A |
★★★ |
简评 |
gemini-2.5-flash表现最佳,精准还原空山基金属机械美学,纹理转换自然,保留香蕉原有黄色与细节光影,质感出众。 |
|||
案例5:多图融合
提示词:将图1人物与图2服装配饰融合,生成户外OOTD风格照片,保持人物身份与姿态,展示完整穿搭。
生成效果:
gemini-2.5-flash-image-preview
Qwen-Image-Edit
GPT-Image-1
Flux-Kontext-Max
测评点 |
gemini-2.5-flash |
Qwen-Image-Edit |
GPT-Image-1 |
Flux-Kontext-Max |
主体一致性 |
★★★★ |
★★★ |
★★★ |
★★ |
环境背景 |
★★★★★ |
★★★★ |
★★★★★ |
★★★★ |
融合效果 |
★★★★★ |
★★ |
★★★★ |
★ |
简评 |
gemini-2.5-flash表现最佳,人物面貌还原准确,动作自然,服装质感逼真,背景融合无破绽;仅配饰造型略有改动,一致性可进一步提升。 |
|||
III. 实测结论
在五项测试中,Gemini-2.5-flash-image-preview取得四项领先,展现出“视觉重构系统”级别的能力。其不仅实现高精度人物与元素保留,更在光影、色调、投影等细节上忠实复现原图质感,尤其在风格迁移与多图融合等复杂任务中表现惊艳。
模型在“环境切换为夜景”任务中未能达标,反映出其对强语义变更指令的响应能力仍有提升空间。总体而言,Gemini已超越“图像生成”范畴,迈向“临摹现场”的高阶视觉处理能力,未来模型需在高保真与高自由度创作之间寻求更优平衡。

