大数跨境
0
0

11月文生图月榜:Nano Banana Pro 领跑,国内头部厂商跻身前五

11月文生图月榜:Nano Banana Pro 领跑,国内头部厂商跻身前五 CLUE中文语言理解测评基准
2025-12-10
0
导读:Nano Banana Pro夺冠,Seedream 4.0、Wan2.5-t2i、Pangu-T2I分别取得国内前三甲。

2025 年 11 月,迭代后的 SuperCLUE—Image 文生图模型月度测评榜单正式揭晓,本次测评锚定中文场景适配需求与模型综合实力,沿用 “基础能力 + 应用能力” 多维框架,覆盖图像质量、现实复现、创作与推理等关键维度,同时启用全新测试数据集与测评方式,文生图测评体系大升级!五大维度解锁大模型创作新边界顺利完成对国内外主流文生图大模型的全面性能测评与排名更新。

提示词:手工陶瓷碗盛着刚煮好的玉米粥,碗边沾着晶莹的粥粒,木质餐垫,旁边放着竹制勺子。

提示词:戴圆框眼镜的青年读者坐在老书店靠窗的木质台阶上,膝头摊开一本泛黄的诗集,阳光透过雕花窗棂在书页上投下菱形光斑,旁边矮柜上的陶瓷茶壶正冒着袅袅热气,窗外老槐树的枝叶轻轻拂过玻璃。 
榜单概览
本次评测涵盖了国内外 14个具有代表性的文生图模型,并对其综合能力进行了深入测评,以下为详细测评报告。
图片

测评核心内容摘要

摘要1:差距与突破并存!Nano Banana Pro 一骑绝尘,国内头部模型紧追不舍

本次文生图月榜中,Google 的 Nano Banana Pro 以 76.20 分大幅领跑,拉开与其他模型的差距;国内头部厂商表现亮眼,字节跳动 Seedream 4.0、阿里 Wan2.5-t2i、华为 Pangu-T2l均跻身前五,其中 Seedream 4.0 仅以 0.03 分之差略胜 OpenAI 的 GPT-image-1。整体来看,本期榜单既体现了国际大厂的技术优势,也展现了国内头部企业在文生图领域的竞争力。
摘要2汉字生成维度,国产模型展现明显优势
在汉字生成能力测评中,国际模型表现普遍疲软,而国产模型集体领跑,字节 Seedream 4.0、阿里 Wan2.5-t2i、华为 Pangu-T2I均拿下 70 + 高分,生成的汉字清晰度高、辨识度强,中文适配性成为国产模型的突出长板。
摘要3:文生图模型基础与推理能力上国产图像质量突围,国际模型逻辑领跑
基础能力维度中,国产模型在 “图像质量” 上已实现突围:阿里 Wan2.5-t2i的画面精细度超过 OpenAI 的 GPT-image-1,但 “图文一致性” 是明显短板。而 “创作与推理” 维度则是国际模型的优势场:Nano Banana Pro、GPT-image-1的逻辑连贯性更强,国产模型虽有 Seedream 4.0等中游表现,但多数得分低于 70,在复杂场景的创作逻辑上仍需提升。
榜单地址:www.superclueai.com
详情请查看下方正文。
SuperCLUE-Image测评体系

SuperCLUE-Image 是一个专为文生图模型设计的评测基准,旨在为文生图领域提供全面且多维的能力评估参考。

秉持创新、紧跟前沿、客观和全面的原则,测评基准围绕五大任务展开评测。
# 测评任务与评价标准

    # 测评方法和评估示例

    测评方法
    参考SuperCLUE细粒度评估方式,采用Gemini 2.5 Pro作为评价模型,每个维度进行细粒度的评估并可以提供详细的反馈信息。该评估流程分为以下几个步骤:
    1.测评集构建
    文生图模型测评题库的构建流程如下:
    1.中文prompt撰写--->
    2.开展样例测试,收集反馈数据--->
    3.基于测试结果优化完善中文prompt--->
    4.系统化构建各任务专属评测集,形成完整测评题库。
    2.评分标准
    Gemini 2.5 Pro根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求,确保评分的一致性、稳定性与公正性。
    3.评分标准自动化评分
    Gemini 2.5 Pro将根据具体的任务类型结合相关的评价标准进行自动化评分。此外,SuperCLUE—Image将采用多轮测评方案,即针对同一个模型生成的全部图片均将采取相同的评价流程进行前后三次测评,并将三次结果的平均值作为每个视频的最终分数参与后续计算与排名。
    4.综合评分和反馈
    最终,我们将各一级维度的平均分计算出来,结合各模型在不同场景中的得分,最终分数将反映出该模型在每个场景的综合性能。结果将以统一的输出格式提供,包括每个单独任务的详细评分与总体评价。

    评估示例

    测评任务】:创作与推理能力-时空融合
    【Prompt生成古代与现代衔接的类型的时空融合图片,纹饰繁复的青铜酒樽与棱角分明的透明亚克力调酒器并置在由汉代云纹案几与不锈钢吧台拼接而成的台面上,调酒器下压着一张打印的现代鸡尾酒配方单,背景左侧挂着半幅汉代《宴饮图》帛画,右侧嵌着一块显示鸡尾酒调制步骤的电子屏。
    模型回复
    【模型评分】
                
    第一轮评价:

    第二轮评价:

    第三轮评价:

    综合得分:

    (0.9+0.87+0.9)/3=0.89分

    # 参评模型
    测评结果
    图像质量榜单
    图文一致性榜单
    汉字生成榜单
    现实复现榜单
    创作与推理能力榜单
    模型回复率
    # 模型对比示例
    # 示例1 图像质量-细节处理
    【Prompt】:生成一个铁皮水桶。生锈的铁皮水桶内部布满暗红色铁锈斑块,斑块间嵌着深褐色水痕,底部残留半圈浅灰色水垢,内壁有细微凹凸冲压纹路,边缘卷边处磨出银色金属底材。
    模型回答对比】:

    # 示例2 汉字生成-文字准确度
    【Prompt】:在浅橙色平面帆布上生成汉字“星河入梦来”。
    模型回答对比】:

    # 示例3 图文一致性-数量关系
    【Prompt】:玻璃罐里装着八颗彩色玻璃珠,旁边放着两支木质铅笔和三张小贴纸,浅灰色书桌上散落着四片银杏叶。
    模型回答对比】:

    # 示例4 现实复现-角色IP还原
    【Prompt】:生成动画《樱桃小丸子》中的樱桃子。穿着白色衬衫和红色背带裙,梳着标志性锯齿状短发,站在学校的操场上,身后是红色的教学楼和绿色的跑道。
    模型回答对比】:


    # 示例5 创作与推理-时空融合
    【Prompt】:「生成古代与现代衔接类型的时空融合图片,主体为唐代风格茶馆内穿长袍煮茶的掌柜,旁边增设现代网红饮品吧台;穿汉服的食客举着盖碗茶,年轻情侣点着芝士葡萄饮品,茶馆的木质梁柱与吧台的霓虹灯牌相映。
    模型回答对比】:
    # 测评分析及结论

    1. 国产文生图模型阵营分化:头部紧追国际,部分待提升

    测评结果显示,字节 Seedream 4.0、阿里 Wan2.5-t2i 等国产头部模型表现亮眼,以 66 + 高分跻身 SuperCLUE—Image 综合能力榜前列,其中 Seedream 4.0 仅以 0.03 分之差略超 OpenAI 的 GPT-image-1,已具备与国际中上游模型抗衡的实力;但百度 ERNIE-iRAG-1.0、智谱 CogView4 等国产模型得分相对靠后,与头部阵营存在 20 + 分的差距,部分模型的综合表现仍有较大提升空间。
    2. 国产模型基础能力呈现 “长板突出、短板明显” 特征。

    在基础能力测评中,国产模型的长板与短板分化显著:“图像质量” 维度,阿里 Wan2.5-t2i、腾讯 Hunyuan-image-3等表现亮眼,接近国际模型水平;“汉字生成” 项更是国产模型优势场,字节 Seedream 4.0、华为 Pangu-T2I均拿下 70 + 高分,远超多数国际模型。但 “图文一致性” 是明显短板:国产模型中仅阿里巴巴Wan2.5-t2i和字节Seedream 4.0 突破 30 分,百度 ERNIE-iRAG-1.0、快手 Kling-v2-1等得分极低,与 Nano Banana Pro的差距显著。

    3. 国际模型在应用能力上处于领跑核心,国产头部模型紧追

    在应用能力测评中,“现实复现” 与 “创作与推理” 两项核心任务呈现 “国际领跑、国产紧追” 的格局:Nano Banana Pro 在现实复现与创作与推理双项登顶,OpenAI 的 GPT-image-1 也稳居前列;国产头部模型表现不俗,字节 Seedream 4.0 在两项任务中均拿下 75 + 高分,阿里 Wan2.5-t2i、腾讯 Hunyuan-image-3 也处于中上游水平,但部分国产模型得分不足 50,与头部梯队的应用能力差距明显。


    综合来看,当前国产文生图模型在汉字生成、现实复现等基础能力上已具备较强竞争力,正逐步向 “精准适配中文需求” 的方向进阶;但在图文一致性、创作表现力维度,国产模型与国际头部模型仍有明显差距。未来的发展方向将更聚焦于中文语境的深度匹配、多维度能力的均衡强化,以及生成质量与可控性的双重提升。

    测评邀请
    1. 请使用单位邮箱,将合作申请发送至企业公邮contact@superclue.ai

    2. 邮件标题命名为SuperCLUE-Image文生图测评申请

    3. 邮件内容包括:单位信息、文生图大模型简介、联系人及所属部门、联系方式

    【声明】内容源于网络
    0
    0
    CLUE中文语言理解测评基准
    精准量化AGI进展,定义人类迈向AGI的路线图
    内容 241
    粉丝 0
    CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
    总阅读44
    粉丝0
    内容241