新智元报道
新智元报道
【新智元导读】最新报告评估生成式模型Nano Banana Pro在去雾、超分等低层视觉任务中的零样本表现。研究发现:其主观视觉质量优于专用模型,但PSNR/SSIM等像素级指标偏低,根源在于生成式模型追求语义合理而非严格像素对齐。报告呼吁重构评测范式,兼顾感知质量、结构稳定性与像素保真。
近年来,文本生成图像(T2I)与多模态生成式模型在图像细节与语义一致性上取得显著进展。
报告聚焦一个关键问题:擅长“生成”的大模型,能否成为低层视觉任务的通用求解器?。
低层视觉任务(如去雾、超分、去噪、去雨、去模糊等)传统上依赖PSNR/SSIM等像素级参考指标,强调精确逆过程;而生成式模型天然倾向“合理补全”,可能产出人眼更喜好的结果,却偏离真实像素对齐。
华中科技大学研究人员将该矛盾概括为“人类感知偏好 vs. 传统指标导向”的张力。
零样本评测:14类低层视觉任务全覆盖
报告采用极简zero-shot范式——不训练、不微调,仅靠“输入图+简单文本prompt”直接调用Nano Banana Pro,系统评测其在14个低层视觉任务、40个数据集上的表现,覆盖图像恢复(restoration)、增强(enhancement)与融合(fusion)三大方向。
具体任务包括:Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion。
保守估测:贴近普通用户实际使用场景
所有测试均基于固定、简明的prompt,未做精细调优,亦未多轮采样择优,旨在反映真实用户“开箱即用”的性能下限。
闭源模型约束:API调用与分辨率适配
因模型以闭源API形式调用,无法定制训练;且输出分辨率通常固定于约1024×1024,故统一resize至GT尺寸后再计算指标,确保定量比较公平。
视觉更优,指标更弱:生成式模型的固有张力
核心结论明确:Nano Banana Pro在主观视觉质量上普遍更优,但在PSNR/SSIM等传统指标上整体落后于专用模型。
主因在于其生成机制——优先保障语义可信与感知合理,而非像素级对齐;同时输出具备随机性(stochasticity),影响稳定性与工业部署可行性。
系统性现象:感知质量与量化指标不一致
以Flare Removal为例:部分样本视觉上“干净舒适”,但因亮度/色度与GT存在偏差,导致PSNR/SSIM分数偏低,凸显传统指标对生成式增强的惩罚性。
生成模型呈现“高上限、低下限”特征:优质输入下细节恢复或超SOTA,但受扩散随机性与语义漂移制约,易出现方差大、幻觉强等问题;prompt工程仅能有限缓解,难达工业级确定性。
稳健但不极致:低光增强中的保守输出倾向
在Low-Light Enhancement任务中,Nano Banana Pro极少引入光晕、结构破坏或严重色偏等灾难性伪影,具备一定实用价值;但也存在亮度控制不一致、prompt敏感、与benchmark GT定义不匹配等问题,整体仍难以替代专用方法。
报告提出潜在改进路径:精细化prompt设计、few-shot示例对齐、轻量适配微调,以及多模态大模型与任务模块协同的混合范式。
报告意义:推动低层视觉评测范式升级
该报告不仅评估Nano Banana Pro,更直面根本性问题:
- 当生成式模型进入低层视觉,像素一致性是否仍是唯一目标?
- 传统指标是否系统性误判生成式恢复/增强能力?
- 是否亟需融合“感知质量+结构/语义稳定性+像素保真”的新一代评测体系?
报告指出:Nano Banana Pro已展现出跨任务泛化潜力,是极具价值的zero-shot baseline;但距专用模型在保真度、可控性与稳定性上的水准,仍有明显差距。

