大数跨境

【灵思分享】奥特曼坐镇直播,Images 2.0拿下生成榜第一!米粒上能刻字,图像迈入GPT-5阶段

【灵思分享】奥特曼坐镇直播,Images 2.0拿下生成榜第一!米粒上能刻字,图像迈入GPT-5阶段 灵思极智
2026-05-05
3

【灵思导读】 今晚,ChatGPT Images 2.0正式发布,成为首个具备“思考能力”的图像AI。奥特曼评价说,这就像从GPT-3直接跨入GPT-5。它不仅能准确理解中文指令、生成复杂UI,还可在米粒表面刻字。

那个熟悉的OpenAI终于回来了。

凌晨,奥特曼亲自带队,进行了一场20分钟的线上直播,终结了数日的沉寂。OpenAI正式推出传闻中的ChatGPT Images 2.0,开启了图像生成的全新阶段。

Images 2.0是一次质的提升,在理解长指令、准确放置并理清物体关系、渲染密集文本等方面均有重大突破。

最关键的是,它是首个拥有“思考能力”的图像模型,能联网检索实时信息、进行二次自查。它还能一次性直接生成八张风格连贯的图像,最高支持2K超清分辨率。

可以说,Images 2.0的亮相,重新确立了视觉生成的行业标准:

• 像素级精度:小字号文本、图标、UI元素等复杂细节一次生成,支持3:1至1:3全比例输出;

• 多语言质变:中、日、韩等非拉丁文字渲染精准,不仅字形正确,语句也自然连贯;

• 风格成熟:达到照片级真实感,电影剧照、像素画、漫画等不同视觉风格都能驾驭;

• 具备思考能力:首个能进行推理的图像模型,可联网搜索、自我检查输出,知识库更新至2025年12月。

在Arena最新榜单中,Images 2.0遥遥领先,登顶全球AI生图榜首,大幅领先谷歌Nano Banana 2/Pro版本,分差达242分。在所有七个文生图类别中,它全部排在第一。

最令人惊叹的是其像素级生成能力。直播中展示了一张米山图,其中一颗米粒上刻着“GPT image 2”字样。奥特曼还与4o图像负责人Gabriel Goh一起展示了关于更多GPU的漫画图。

网友们纷纷上手,再次被Images 2.0的实力所震撼。甚至有人表示,“OpenAI终于又一次在图像生成领域取得领先!”

中文表现堪称完美

OpenAI自嘲“稳稳地接住你”

过去的图像模型,在英语和拉丁字母语言上表现尚可,但遇到中、日、韩文字时常出现乱码。这次,官方博客中展示的中文示例效果惊人。

OpenAI研究科学家陈博远亲自出镜,生成了一整页全中文彩色漫画,讲述他在OpenAI优化ChatGPT Image 2中文文本渲染的故事。这张图同时证明了三点:中文文本渲染能力大幅提升、极小字号精度可控、复杂多格漫画一次性生成。

漫画共五排:第一排是陈博远在电脑前工作,背景有珍珠奶茶,墙上用胶带粘着一根香蕉。第二排是他为家乡无锡生成的多语言手绘风格信息图海报,上面密集的中文小字全部正确渲染。第三排是团队看到效果后集体兴奋。第四排画风转变,他休息时收到奥特曼的翻译短信,祝贺团队的中文渲染成果。

重点是第五排:陈博远看到奥特曼生成的祝贺图片,正中央写着“稳稳地接住你”。这句话在中文用户中早已成为吐槽对象——GPT在对话中常说的油腻又真诚的美式安慰语。漫画里的陈博远当场破防,大喊“天呐!它又学会了接住!”,身旁队友则流汗弱弱地说“我们正在努力修复它!”这一自嘲堪称满分。

除中文外,OpenAI还展示了全日语对白的少年冒险漫画、涵盖九种印度语言书籍封面的印度书店,以及韩语高级韩屋住宿广告。语言不再是图像生成的次要元素。

像素级生成

从GPT-3到GPT-5的大跨越

ChatGPT Images 2.0可被视为OpenAI图像生成的下一个里程碑。直播中,奥特曼评价说,“这种感觉就像一下子从GPT-3直接跳到了GPT-5”。

上传一张四人合照,ChatGPT可直接生成一本杂志封面,页面设计和文字排版都相当考究。海报中包含大量细节,小字处理、人物面部一致性都很好,给人“男团”的即视感。

在细节方面,ChatGPT的输出达到了“照片级”效果,逼真到难以看出是AI生成的。例如,下面这张模拟2015年OpenAI刚成立时的阶梯教室场景,光线环境和PPT文案都令人惊叹。

真正让全场惊讶的是一张人类登月的360°全景图。将ChatGPT生成的图片放入全景查看器,可以看到太阳位置、影子方向等细节全部清晰呈现。

官方示例中还有一张macOS浏览器里ChatGPT窗口的截图。窗口层叠、后台终端打开、桌面杂乱,视觉细节极其丰富,生成效果几乎与真实截图无异。达到这种渲染精度,表明模型对每个像素的控制力已跨越关键门槛。

照片级真实感

AI生成的图终于不像AI了

风格真实度是另一大进步。过去AI生成的图片常有某种“AI感”:皮肤过滑、光线过均、构图过完美,一眼就能识别。Images 2.0反其道而行,开始学会“不完美”。

官方示例中有一组抓拍快照,具有35mm胶片质感,可见颗粒感,构图略偏中心,衣服和头发在风中飘动。如果不说明,会以为是摄影师在公路旁随手抓拍的作品。

还有一组一次性相机风格照片,模拟2000年代初美国高中电脑室场景,学生挤在米色CRT显示器前使用ChatGPT。闪光灯过曝、轻微运动模糊、角落印着“02 18 04”的橙色日期戳,所有“胶片时代的不完美”都被精准还原。

在风格多样性上,Images 2.0也表现出色。宽高比现在支持最宽3:1、最高1:3。OpenAI特意展示了一幅横版中国传统长卷山水画,笔墨晕染和留白都颇为到位。1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图,每种视觉语言都保持了高度风格一致性,而不只是“看起来有点像”。

会思考的图像模型

一次生成八张连贯画面

直播中,ChatGPT图像负责人Gabriel Goh表示,Images 2.0共上线两种模式:

• 即时模式(Instant Mode)

• 思考模式(Thinking Mode)

其中最具颠覆性的升级都在“思考模式”里。当在ChatGPT中选择思考模式时,Images 2.0不再只是一个“你说我画”的渲染器,而变成了一个视觉思考伙伴。它会花更多时间理解你的意图,搜索网络获取实时信息,对图像结构进行推理,然后再动手。

更关键的是,思考模式下它可以一次性生成最多八张风格连贯、角色一致、内容递进的图像。只需上传一张大头照,ChatGPT就能立即给出八套夏装搭配。选择其中一套,还会为你生成更多衣服不同角度的细节。

在这个任务中,ChatGPT调动了两种不同的“视觉智能”:一是“视觉理解”能力,要去真正“看”照片,理解样貌并规划合适搭配;二是“视觉生成”能力,将规划好的服装布局转化为连贯有条理的图片。

以前想做一组社交媒体素材,需要一张张生成再自己拼接。现在一句提示词,Twitter、Instagram Stories、Instagram Feed、LinkedIn四种尺寸一次性完成,色调和构图风格统一。官方示例展示了一家布鲁克林抹茶店的广告素材,冰镇草莓抹茶在阳光下的画面,街头服饰美学搭配日式极简,四种社交平台尺寸一步到位。

还有一个学术论文海报示例,直接上传PDF,模型自动提取关键图表、数据和结构,排版成横版海报。值得一提的是,Images 2.0开启思考模式后,还可以直接联网搜索信息。

团队透露,几天前在Arena盲测中的“DuckTape”就是今天的Images 2.0。他们让Images 2.0搜集网友反馈并制成一张图,模型甚至还生成了一个可直接扫描的二维码。

ChatGPT、Codex全线开放

从今天起,所有ChatGPT和Codex用户都可以使用ChatGPT Images 2.0。带有“思考”过程的图像生成功能,已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。

在定价方面,ChatGPT Images 2.0能力更强,但token输入/输出价格没有上涨。对普通用户而言,演示文稿配图、社交媒体海报、产品宣传卡片等过去需要Photoshop折腾半天的任务,现在一句提示词即可完成。

对开发者和企业来说,本地化广告、多语言信息图、教育内容、设计工具等需要大量人工的视觉工作流,现在都可以通过API批量自动化。Codex中更是将图像生成整合进了工作区,设计团队可以在同一环境里出UI方案、比较选项、转化产品,全程无需切换工具。

图像生成的“iPhone时刻”?

回顾过去,从DALL·E到Midjourney再到Stable Diffusion,AI图像生成一直处于“够用但不太好用”的状态。文字渲染翻车、多语言拉胯、风格千篇一律、构图有AI感,这些问题每个都劝退了想将AI图像用于正经场景的用户。

Images 2.0一口气将这些短板全部补上,还增加了思考能力和一次性多图生成。虽然它离“完美”还有距离,但它可能是第一个让设计师、营销人员和内容创作者觉得“这东西我真能在工作中使用”的AI图像模型。现在,设计师们或许需要重新思考自己的护城河在哪里了。


————  END  ————


灵思极智旗下“极智系列”三款AI智能应用

图片




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”
图片


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


图片

【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176