【灵思分享】奥特曼坐镇直播，Images 2.0拿下生成榜第一！米粒上能刻字，图像迈入GPT-5阶段- 大数跨境

首页

【灵思分享】奥特曼坐镇直播，Images 2.0拿下生成榜第一！米粒上能刻字，图像迈入GPT-5阶段

灵思极智

2026-05-05

【灵思导读】今晚，ChatGPT Images 2.0正式发布，成为首个具备“思考能力”的图像AI。奥特曼评价说，这就像从GPT-3直接跨入GPT-5。它不仅能准确理解中文指令、生成复杂UI，还可在米粒表面刻字。

那个熟悉的OpenAI终于回来了。

凌晨，奥特曼亲自带队，进行了一场20分钟的线上直播，终结了数日的沉寂。OpenAI正式推出传闻中的ChatGPT Images 2.0，开启了图像生成的全新阶段。

Images 2.0是一次质的提升，在理解长指令、准确放置并理清物体关系、渲染密集文本等方面均有重大突破。

最关键的是，它是首个拥有“思考能力”的图像模型，能联网检索实时信息、进行二次自查。它还能一次性直接生成八张风格连贯的图像，最高支持2K超清分辨率。

可以说，Images 2.0的亮相，重新确立了视觉生成的行业标准：

• 像素级精度：小字号文本、图标、UI元素等复杂细节一次生成，支持3:1至1:3全比例输出；

• 多语言质变：中、日、韩等非拉丁文字渲染精准，不仅字形正确，语句也自然连贯；

• 风格成熟：达到照片级真实感，电影剧照、像素画、漫画等不同视觉风格都能驾驭；

• 具备思考能力：首个能进行推理的图像模型，可联网搜索、自我检查输出，知识库更新至2025年12月。

在Arena最新榜单中，Images 2.0遥遥领先，登顶全球AI生图榜首，大幅领先谷歌Nano Banana 2/Pro版本，分差达242分。在所有七个文生图类别中，它全部排在第一。

最令人惊叹的是其像素级生成能力。直播中展示了一张米山图，其中一颗米粒上刻着“GPT image 2”字样。奥特曼还与4o图像负责人Gabriel Goh一起展示了关于更多GPU的漫画图。

网友们纷纷上手，再次被Images 2.0的实力所震撼。甚至有人表示，“OpenAI终于又一次在图像生成领域取得领先！”

中文表现堪称完美

OpenAI自嘲“稳稳地接住你”

过去的图像模型，在英语和拉丁字母语言上表现尚可，但遇到中、日、韩文字时常出现乱码。这次，官方博客中展示的中文示例效果惊人。

OpenAI研究科学家陈博远亲自出镜，生成了一整页全中文彩色漫画，讲述他在OpenAI优化ChatGPT Image 2中文文本渲染的故事。这张图同时证明了三点：中文文本渲染能力大幅提升、极小字号精度可控、复杂多格漫画一次性生成。

漫画共五排：第一排是陈博远在电脑前工作，背景有珍珠奶茶，墙上用胶带粘着一根香蕉。第二排是他为家乡无锡生成的多语言手绘风格信息图海报，上面密集的中文小字全部正确渲染。第三排是团队看到效果后集体兴奋。第四排画风转变，他休息时收到奥特曼的翻译短信，祝贺团队的中文渲染成果。

重点是第五排：陈博远看到奥特曼生成的祝贺图片，正中央写着“稳稳地接住你”。这句话在中文用户中早已成为吐槽对象——GPT在对话中常说的油腻又真诚的美式安慰语。漫画里的陈博远当场破防，大喊“天呐！它又学会了接住！”，身旁队友则流汗弱弱地说“我们正在努力修复它！”这一自嘲堪称满分。

除中文外，OpenAI还展示了全日语对白的少年冒险漫画、涵盖九种印度语言书籍封面的印度书店，以及韩语高级韩屋住宿广告。语言不再是图像生成的次要元素。

像素级生成

从GPT-3到GPT-5的大跨越

ChatGPT Images 2.0可被视为OpenAI图像生成的下一个里程碑。直播中，奥特曼评价说，“这种感觉就像一下子从GPT-3直接跳到了GPT-5”。

上传一张四人合照，ChatGPT可直接生成一本杂志封面，页面设计和文字排版都相当考究。海报中包含大量细节，小字处理、人物面部一致性都很好，给人“男团”的即视感。

在细节方面，ChatGPT的输出达到了“照片级”效果，逼真到难以看出是AI生成的。例如，下面这张模拟2015年OpenAI刚成立时的阶梯教室场景，光线环境和PPT文案都令人惊叹。

真正让全场惊讶的是一张人类登月的360°全景图。将ChatGPT生成的图片放入全景查看器，可以看到太阳位置、影子方向等细节全部清晰呈现。

官方示例中还有一张macOS浏览器里ChatGPT窗口的截图。窗口层叠、后台终端打开、桌面杂乱，视觉细节极其丰富，生成效果几乎与真实截图无异。达到这种渲染精度，表明模型对每个像素的控制力已跨越关键门槛。

照片级真实感

AI生成的图终于不像AI了

风格真实度是另一大进步。过去AI生成的图片常有某种“AI感”：皮肤过滑、光线过均、构图过完美，一眼就能识别。Images 2.0反其道而行，开始学会“不完美”。

官方示例中有一组抓拍快照，具有35mm胶片质感，可见颗粒感，构图略偏中心，衣服和头发在风中飘动。如果不说明，会以为是摄影师在公路旁随手抓拍的作品。

还有一组一次性相机风格照片，模拟2000年代初美国高中电脑室场景，学生挤在米色CRT显示器前使用ChatGPT。闪光灯过曝、轻微运动模糊、角落印着“02 18 04”的橙色日期戳，所有“胶片时代的不完美”都被精准还原。

在风格多样性上，Images 2.0也表现出色。宽高比现在支持最宽3:1、最高1:3。OpenAI特意展示了一幅横版中国传统长卷山水画，笔墨晕染和留白都颇为到位。1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图，每种视觉语言都保持了高度风格一致性，而不只是“看起来有点像”。

会思考的图像模型

一次生成八张连贯画面

直播中，ChatGPT图像负责人Gabriel Goh表示，Images 2.0共上线两种模式：

• 即时模式（Instant Mode）

• 思考模式（Thinking Mode）

其中最具颠覆性的升级都在“思考模式”里。当在ChatGPT中选择思考模式时，Images 2.0不再只是一个“你说我画”的渲染器，而变成了一个视觉思考伙伴。它会花更多时间理解你的意图，搜索网络获取实时信息，对图像结构进行推理，然后再动手。

更关键的是，思考模式下它可以一次性生成最多八张风格连贯、角色一致、内容递进的图像。只需上传一张大头照，ChatGPT就能立即给出八套夏装搭配。选择其中一套，还会为你生成更多衣服不同角度的细节。

在这个任务中，ChatGPT调动了两种不同的“视觉智能”：一是“视觉理解”能力，要去真正“看”照片，理解样貌并规划合适搭配；二是“视觉生成”能力，将规划好的服装布局转化为连贯有条理的图片。

以前想做一组社交媒体素材，需要一张张生成再自己拼接。现在一句提示词，Twitter、Instagram Stories、Instagram Feed、LinkedIn四种尺寸一次性完成，色调和构图风格统一。官方示例展示了一家布鲁克林抹茶店的广告素材，冰镇草莓抹茶在阳光下的画面，街头服饰美学搭配日式极简，四种社交平台尺寸一步到位。

还有一个学术论文海报示例，直接上传PDF，模型自动提取关键图表、数据和结构，排版成横版海报。值得一提的是，Images 2.0开启思考模式后，还可以直接联网搜索信息。

团队透露，几天前在Arena盲测中的“DuckTape”就是今天的Images 2.0。他们让Images 2.0搜集网友反馈并制成一张图，模型甚至还生成了一个可直接扫描的二维码。

ChatGPT、Codex全线开放

从今天起，所有ChatGPT和Codex用户都可以使用ChatGPT Images 2.0。带有“思考”过程的图像生成功能，已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。

在定价方面，ChatGPT Images 2.0能力更强，但token输入/输出价格没有上涨。对普通用户而言，演示文稿配图、社交媒体海报、产品宣传卡片等过去需要Photoshop折腾半天的任务，现在一句提示词即可完成。

对开发者和企业来说，本地化广告、多语言信息图、教育内容、设计工具等需要大量人工的视觉工作流，现在都可以通过API批量自动化。Codex中更是将图像生成整合进了工作区，设计团队可以在同一环境里出UI方案、比较选项、转化产品，全程无需切换工具。

图像生成的“iPhone时刻”？

回顾过去，从DALL·E到Midjourney再到Stable Diffusion，AI图像生成一直处于“够用但不太好用”的状态。文字渲染翻车、多语言拉胯、风格千篇一律、构图有AI感，这些问题每个都劝退了想将AI图像用于正经场景的用户。

Images 2.0一口气将这些短板全部补上，还增加了思考能力和一次性多图生成。虽然它离“完美”还有距离，但它可能是第一个让设计师、营销人员和内容创作者觉得“这东西我真能在工作中使用”的AI图像模型。现在，设计师们或许需要重新思考自己的护城河在哪里了。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176