

Nano Banana不会应试！指标拉垮，视觉效果惊艳，实测14个任务

新智元

2026-01-04

新智元报道

编辑：LRST

【新智元导读】最新报告评估生成式模型Nano Banana Pro在去雾、超分等低层视觉任务中的零样本表现。研究发现：其主观视觉质量优于专用模型，但PSNR/SSIM等像素级指标偏低，根源在于生成式模型追求语义合理而非严格像素对齐。报告呼吁重构评测范式，兼顾感知质量、结构稳定性与像素保真。

近年来，文本生成图像（T2I）与多模态生成式模型在图像细节与语义一致性上取得显著进展。

报告聚焦一个关键问题：擅长“生成”的大模型，能否成为低层视觉任务的通用求解器？。

低层视觉任务（如去雾、超分、去噪、去雨、去模糊等）传统上依赖PSNR/SSIM等像素级参考指标，强调精确逆过程；而生成式模型天然倾向“合理补全”，可能产出人眼更喜好的结果，却偏离真实像素对齐。

华中科技大学研究人员将该矛盾概括为“人类感知偏好 vs. 传统指标导向”的张力。

零样本评测：14类低层视觉任务全覆盖

报告采用极简zero-shot范式——不训练、不微调，仅靠“输入图+简单文本prompt”直接调用Nano Banana Pro，系统评测其在14个低层视觉任务、40个数据集上的表现，覆盖图像恢复（restoration）、增强（enhancement）与融合（fusion）三大方向。

具体任务包括：Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion。

保守估测：贴近普通用户实际使用场景

所有测试均基于固定、简明的prompt，未做精细调优，亦未多轮采样择优，旨在反映真实用户“开箱即用”的性能下限。

闭源模型约束：API调用与分辨率适配

因模型以闭源API形式调用，无法定制训练；且输出分辨率通常固定于约1024×1024，故统一resize至GT尺寸后再计算指标，确保定量比较公平。

视觉更优，指标更弱：生成式模型的固有张力

核心结论明确：Nano Banana Pro在主观视觉质量上普遍更优，但在PSNR/SSIM等传统指标上整体落后于专用模型。

主因在于其生成机制——优先保障语义可信与感知合理，而非像素级对齐；同时输出具备随机性（stochasticity），影响稳定性与工业部署可行性。

系统性现象：感知质量与量化指标不一致

以Flare Removal为例：部分样本视觉上“干净舒适”，但因亮度/色度与GT存在偏差，导致PSNR/SSIM分数偏低，凸显传统指标对生成式增强的惩罚性。

生成模型呈现“高上限、低下限”特征：优质输入下细节恢复或超SOTA，但受扩散随机性与语义漂移制约，易出现方差大、幻觉强等问题；prompt工程仅能有限缓解，难达工业级确定性。

稳健但不极致：低光增强中的保守输出倾向

在Low-Light Enhancement任务中，Nano Banana Pro极少引入光晕、结构破坏或严重色偏等灾难性伪影，具备一定实用价值；但也存在亮度控制不一致、prompt敏感、与benchmark GT定义不匹配等问题，整体仍难以替代专用方法。

报告提出潜在改进路径：精细化prompt设计、few-shot示例对齐、轻量适配微调，以及多模态大模型与任务模块协同的混合范式。

报告意义：推动低层视觉评测范式升级

该报告不仅评估Nano Banana Pro，更直面根本性问题：

当生成式模型进入低层视觉，像素一致性是否仍是唯一目标？
传统指标是否系统性误判生成式恢复/增强能力？
是否亟需融合“感知质量+结构/语义稳定性+像素保真”的新一代评测体系？

报告指出：Nano Banana Pro已展现出跨任务泛化潜力，是极具价值的zero-shot baseline；但距专用模型在保真度、可控性与稳定性上的水准，仍有明显差距。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14712

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读92.4k

粉丝0

内容14.7k