大数跨境
0
0

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务 新智元
2026-01-04
4

新智元报道

编辑:LRST
【新智元导读】最新报告评估生成式模型Nano Banana Pro在去雾、超分等低层视觉任务中的零样本表现。研究发现:其主观视觉质量优于专用模型,但PSNR/SSIM等像素级指标偏低,根源在于生成式模型追求语义合理而非严格像素对齐。报告呼吁重构评测范式,兼顾感知质量、结构稳定性与像素保真。

近年来,文本生成图像(T2I)与多模态生成式模型在图像细节与语义一致性上取得显著进展。

报告聚焦一个关键问题:擅长“生成”的大模型,能否成为低层视觉任务的通用求解器?。

低层视觉任务(如去雾、超分、去噪、去雨、去模糊等)传统上依赖PSNR/SSIM等像素级参考指标,强调精确逆过程;而生成式模型天然倾向“合理补全”,可能产出人眼更喜好的结果,却偏离真实像素对齐。

华中科技大学研究人员将该矛盾概括为“人类感知偏好 vs. 传统指标导向”的张力。

零样本评测:14类低层视觉任务全覆盖

报告采用极简zero-shot范式——不训练、不微调,仅靠“输入图+简单文本prompt”直接调用Nano Banana Pro,系统评测其在14个低层视觉任务、40个数据集上的表现,覆盖图像恢复(restoration)、增强(enhancement)与融合(fusion)三大方向。

具体任务包括:Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion。

保守估测:贴近普通用户实际使用场景

所有测试均基于固定、简明的prompt,未做精细调优,亦未多轮采样择优,旨在反映真实用户“开箱即用”的性能下限。

闭源模型约束:API调用与分辨率适配

因模型以闭源API形式调用,无法定制训练;且输出分辨率通常固定于约1024×1024,故统一resize至GT尺寸后再计算指标,确保定量比较公平。

视觉更优,指标更弱:生成式模型的固有张力

核心结论明确:Nano Banana Pro在主观视觉质量上普遍更优,但在PSNR/SSIM等传统指标上整体落后于专用模型。

主因在于其生成机制——优先保障语义可信与感知合理,而非像素级对齐;同时输出具备随机性(stochasticity),影响稳定性与工业部署可行性。

系统性现象:感知质量与量化指标不一致

以Flare Removal为例:部分样本视觉上“干净舒适”,但因亮度/色度与GT存在偏差,导致PSNR/SSIM分数偏低,凸显传统指标对生成式增强的惩罚性。

生成模型呈现“高上限、低下限”特征:优质输入下细节恢复或超SOTA,但受扩散随机性与语义漂移制约,易出现方差大、幻觉强等问题;prompt工程仅能有限缓解,难达工业级确定性。

稳健但不极致:低光增强中的保守输出倾向

在Low-Light Enhancement任务中,Nano Banana Pro极少引入光晕、结构破坏或严重色偏等灾难性伪影,具备一定实用价值;但也存在亮度控制不一致、prompt敏感、与benchmark GT定义不匹配等问题,整体仍难以替代专用方法。

报告提出潜在改进路径:精细化prompt设计、few-shot示例对齐、轻量适配微调,以及多模态大模型与任务模块协同的混合范式。

报告意义:推动低层视觉评测范式升级

该报告不仅评估Nano Banana Pro,更直面根本性问题:

  • 当生成式模型进入低层视觉,像素一致性是否仍是唯一目标?
  • 传统指标是否系统性误判生成式恢复/增强能力?
  • 是否亟需融合“感知质量+结构/语义稳定性+像素保真”的新一代评测体系?

报告指出:Nano Banana Pro已展现出跨任务泛化潜力,是极具价值的zero-shot baseline;但距专用模型在保真度、可控性与稳定性上的水准,仍有明显差距。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14712
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读92.4k
粉丝0
内容14.7k