大数跨境
0
0

ChatGPT Images 新版来了:更快,更准、更稳,它和如日中天的Nanobanan pro 谁更强?

ChatGPT Images 新版来了:更快,更准、更稳,它和如日中天的Nanobanan pro 谁更强? 果叔Ai全球化笔记
2025-12-18
9

OpenAI Product Update   |   ChatGPT Images · 2025

ChatGPT Images 新版上线:更准、更稳,生成速度最高提升 4 倍

来源 / OpenAI   ·   发布 / 2025-12-11   ·   译 / 果叔

原文标题 / The new ChatGPT Images is here | OpenAI
原文链接: https://openai.com/index/new-chatgpt-images-is-here/

写在前面(果叔导读)

OpenAI 正式发布新版 ChatGPT Images,由全新旗舰图像生成模型驱动。该版本显著提升指令遵循能力与编辑稳定性,支持从零生成、精准改图、多轮迭代等全流程创作,生成速度最高达旧版的 4 倍。

新版即日起向所有 ChatGPT 用户及 API 开发者分批开放;Business 与 Enterprise 用户稍晚启用。API 版本命名为 GPT Image 1.5,图像输入/输出定价较 GPT Image 1 下调 20%。

本次升级核心并非“更会画”,而是“更会按指令改图”,同时稳固保留光照、构图、人脸相似度等关键视觉特征。

针对过往图像生成常见痛点——如改发型导致脸变、重绘后风格漂移、文字渲染模糊、多轮修改响应迟缓等,新版聚焦五大优化方向:

  • 更稳
    仅修改用户指定内容,最大限度保持原图关键细节一致
  • 更准
    复杂构图中元素关系更可靠,指令执行精度明显提升
  • 更能写字
    支持高密度、小字号文本渲染,适用于海报、信息图等专业场景
  • 更快
    生成速度最高提升 4 倍,支持并行多图生成
  • 入口更友好 + API 同步
    ChatGPT 内设独立 Images 功能区;API 全面集成 GPT Image 1.5 能力


补图:用“更稳、更准、更快、更能写字”的视觉隐喻做一张头图

01 精准编辑:只改你要改的,关键细节稳住不丢

编辑(Editing)

模型支持添加、删除、合并、融合、挪移等多种编辑操作,在满足用户具体修改要求的同时,有效维持原图光照、构图、人物外观等核心特征的一致性。

把这两位男士和狗合在同一张照片里:用 2000 年代胶片相机风格拍摄,他们在一个小朋友生日派对上看起来一脸无聊。

在背景里加一群“混乱小孩”:扔东西、尖叫。

把左边的男人改成手绘复古日漫风;把狗改成毛绒玩具风;右边的男人和背景场景保持原样。


给他们都穿上像这样一样的 OpenAI 毛衣。



现在把两位男士移除,只留下狗,并把它放进一个像附件图片那样的 OpenAI 直播画面里。


创意变换(Creative transformations)

支持基于文字提示或预设风格进行概念性重构,如将人像转化为特定年代电影海报,并精准嵌入定制化文字、版式与角色信息,且保留原始结构与关键细节。

用这两位男士的照片做一张“老派、黄金时代好莱坞”风格的电影海报:电影名叫 'codex'。你可以按年代需要随意调整他们的服装。


把演员名字改为 Wojciech Zaremba(左)和 Greg Brockman(右)。

导演:Sam Altman;制片:Fidji Simo。出品:Feel the AGI Pictures。

fba95063104.png">


相比前代,新版模型在复杂构图中对元素位置、比例、逻辑关系的保持能力显著增强,使原创画面更具可信度与表现力。

02 新版 vs 旧版:指令遵循能力对比

新版(New):指令遵循示例

画一个 6×6 网格。

做一个 6(列)× 6(行)的网格,每个格子里画一个对象:

第 1 行:希腊字母 beta(β)、沙滩球、柠檬、机器人、鱼缸、青蛙

第 2 行:螳螂、一块昂贵的手表、浴缸、一副太阳镜、一只色彩斑斓的蝴蝶、一个信封

第 3 行:邮票、相框、一只冒着热气的饺子、单词 "miracle"、一副滑雪板、字母 Z

第 4 行:马桶、一枚地铁代币、静音图标、一瓶香水、一只蜻蜓、滑板头盔

第 5 行:蓝牙图标、数字 13、绿色爱心、魔方、一只 Canada goose(加拿大鹅/雁)、士兵头盔

第 6 行:一只白色的狗、救生衣、一个绳结、键盘、纸巾盒、数字 14


旧版(Previous):同样指令的对比

画一个 6×6 网格。

做一个 6(列)× 6(行)的网格,每个格子里画一个对象:

第 1 行:希腊字母 beta(β)、沙滩球、柠檬、机器人、鱼缸、青蛙

第 2 行:螳螂、一块昂贵的手表、浴缸、一副太阳镜、一只色彩斑斓的蝴蝶、一个信封

第 3 行:邮票、相框、一只冒着热气的饺子、单词 "miracle"、一副滑雪板、字母 Z

第 4 行:马桶、一枚地铁代币、静音图标、一瓶香水、一只蜻蜓、滑板头盔

第 5 行:蓝牙图标、数字 13、绿色爱心、魔方、一只 Canada goose(加拿大鹅/雁)、士兵头盔

第 6 行:一只白色的狗、救生衣、一个绳结、键盘、纸巾盒、数字 14


03 文字渲染:密集、小字号文本清晰可读

新版模型大幅强化文本渲染能力,支持在图像中准确呈现多层级 Markdown 排版、密排文字、细小字体,适用于新闻稿、产品说明书、数据看板等高信息密度场景。

桌上有一份报纸。报纸上把下面的 markdown 以“自然的报纸文章”形式排版出来。请严格保留所有内容、格式和数字。图片应该是竖版长图。

# 介绍 GPT‑5.2

### *面向专业工作与长链条 Agent 的最先进前沿模型*

**2025 年 12 月 11 日**

---

我们发布 **GPT‑5.2**:迄今为止最强的、面向专业知识工作的模型系列。

目前,平均每位 ChatGPT Enterprise 用户表示 AI 每天能为他们节省 40–60 分钟;重度用户则说每周能省下超过 10 小时。我们设计 GPT‑5.2,是为了释放更大的经济价值:它更擅长制作电子表格、搭建演示文稿、写代码、理解图像、处理长上下文、使用工具,以及推进复杂的、多步骤项目。

GPT‑5.2 在多个基准上刷新了 SOTA(当前最佳)表现,其中包括 GDPval:在覆盖 44 个职业、任务定义明确的知识型工作任务上,它的表现超过了行业从业者。

---

## 基准亮点

| Benchmark | Domain | GPT‑5.2 Thinking | GPT‑5.1 Thinking |
|---|---|---:|---:|
| GDPval (wins or ties) | Knowledge work tasks | **70.9%** | 38.8% (GPT‑5) |
| SWE-Bench Pro (public) | Software engineering | **55.6%** | 50.8% |
| SWE-bench Verified | Software engineering | **80.0%** | 76.3% |
| GPQA Diamond (no tools) | Science questions | **92.4%** | 88.1% |
| CharXiv Reasoning (w/ Python) | Scientific figure questions | **88.7%** | 80.3% |
| AIME 2025 (no tools) | Competition math | **100.0%** | 94.0% |
| FrontierMath (Tier 1–3) | Advanced mathematics | **40.3%** | 31.0% |
| FrontierMath (Tier 4) | Advanced mathematics | **14.6%** | 12.5% |
| ARC-AGI-1 (Verified) | Abstract reasoning | **86.2%** | 72.8% |
| ARC-AGI-2 (Verified) | Abstract reasoning | **52.9%** | 17.6% |

---

Notion、Box、Shopify、Harvey 和 Zoom 观察到,GPT‑5.2 具备行业领先的长程推理与工具调用能力。Databricks、Hex 和 Triple Whale 发现 GPT‑5.2 在 agentic 数据科学与文档分析任务上表现卓越。Cognition、Warp、Charlie Labs、JetBrains 和 Augment Code 报告称,GPT‑5.2 提供了行业领先的 agentic 编码表现,并在交互式编码、代码审查、Bug 发现等方面带来可量化的提升。

在 ChatGPT 中,GPT‑5.2 Instant、Thinking、Pro 将从今天开始逐步上线,先从付费计划开始;在 API 中,它们现已向所有开发者开放。

总体而言,GPT‑5.2 在通用智能、长上下文理解、agentic 工具调用与视觉能力上都有显著提升——让它比以往任何模型都更能端到端完成复杂的、真实世界的任务。


接着,再让它把报纸上的文章替换成下面这份 markdown:

# 介绍 GPT‑Image-1.5

### *全新升级的 ChatGPT Images*

**2025 年 12 月 16 日**

---

今天,我们发布全新升级版的 ChatGPT Images,由目前我们最强的图像生成模型驱动。凭借更强的指令遵循能力与更精确的编辑,ChatGPT Images 可以在多轮编辑中保持诸如人脸相似度等关键细节一致的同时,完成你要求的修改——生成速度最高可达 **4× 更快**,让你更少等待、更快迭代和探索。

这是我们迄今为止最强的通用文生图模型:更有表现力的变换能力、更强的密集文本渲染、更自然的结果。无论你是做一个小修补,还是一次彻底重塑,你只需要说出你想要什么——或在新的 Images 体验里选择预设风格与灵感——ChatGPT 会处理剩下的部分,交付既实用又有说服力、也更贴近你意图的结果。

新版 Images 模型与体验从今天开始在 ChatGPT 面向所有用户逐步上线,并在 API 中以 **GPT‑Image-1.5** 的形式提供。

---

## 更贴合你意图的结果

模型现在能更可靠地遵循指令——细到小细节——它会改你要求改的,同时还能让光照、构图、相似度等要素,在输入、输出及后续多轮编辑里保持一致。

这会带来更贴近你意图的结果:更好用的照片编辑、更像真的服装与发型试穿/试戴,以及保留原图精髓的风格滤镜与概念性变形。合在一起,这些提升意味着 ChatGPT 可以变成你口袋里的创意工作室——既能做实用的改图,也能做更表达性的再创作。

### 编辑

模型擅长多种编辑类型,让你得到想要的变化,同时不丢掉这张图最特别的地方。

### 创意变换

模型在创意变换上很亮眼:它能改动或新增元素——比如文字和版式——把点子落到画面里,同时还能保住重要细节。

### 指令遵循

相比 GPT Image 1.0,模型更擅长遵循指令。

### 文字渲染

模型在文字渲染上也更进一步:可以处理更密、更小的文字。

---

## 一个新的创作空间

除了在对话里直接描述你想要看到的画面来生成图片,我们还在 ChatGPT 侧边栏引入了一个专门的 Images 体验,让“探索/尝试图片”更快更容易。这里有预设滤镜与趋势提示词来帮助你启动灵感;还有一次性上传相貌的能力,让你之后反复复用自己的外观,不用再从相册里翻来翻去。

合在一起,这些升级让你更容易做出贴合你想法的图片:从小修小补到完全再创作。现在图片渲染速度最高可达 4 倍提升,而且当一些图片还在生成时,你仍然可以继续生成新的图片——让你不必等待,就能探索更多想法。

04 新的创作空间:一站式图像生成与编辑中心

ChatGPT 新增独立 Images 功能区,支持通过移动端 App 侧边栏或 chatgpt.com 直接进入。内置数十种预设滤镜与热门提示词,定期更新以匹配最新创意趋势;支持一次上传人脸特征(likeness),后续可反复调用,简化个性化创作流程。

新版支持并行生成与快速迭代,大幅缩短从构思到成图的周期。图像整体观感更自然,小尺寸人脸识别与呈现能力同步增强。

新版(New)

做一个 1970 年代伦敦切尔西(Chelsea, London)的场景:写实风格、所有元素都清晰对焦、画面里有很多人;还有一辆公交车,车身广告写着 "ImageGen 1.5"(带 OpenAI logo)以及副标题 "Create what you imagine"。整体是超真实的业余摄影风格,像 iPhone 抓拍那种质感……


旧版(Previous)

做一个 1970 年代伦敦切尔西(Chelsea, London)的场景:写实风格、所有元素都清晰对焦、画面里有很多人;还有一辆公交车,车身广告写着 "ImageGen 1.5"(带 OpenAI logo)以及副标题 "Create what you imagine"。整体是超真实的业余摄影风格,像 iPhone 抓拍那种质感……


05 API 支持:GPT Image 1.5 全面可用

GPT Image 1.5 已同步上线 OpenAI API,具备与 ChatGPT Images 完全一致的核心能力,包括高保真编辑、稳定构图控制、精准文字渲染与多轮一致性维护。

适用于品牌营销(如海报设计、Logo 迭代)、电商(单图批量生成多角度/多场景商品图)等需强可控性的生产场景。图像输入与输出价格较 GPT Image 1 下调 20%,单位预算可支撑更高频次的生成与优化。

开发者可在 OpenAI Playground 中试用新模型,查阅 prompt guide 获取实践建议。目前已有多家创意工具、电商平台与营销 SaaS 企业接入使用。

新版(New)

旧版(Previous)

“GPT Image 1.5 能生成高保真图像,并且对提示词的遵循度很强;它能保住构图、光照与细粒度细节。输出干净、真实、可靠,帮助我们在 Wix 这样的平台上,把从概念到生产的工作流显著提速。基于我们的测试,以及我们在 Wix 看到的主要用例,这种一致性与质量足以让它竞争成为当下的旗舰级图像生成模型之一。”

— Hila Gat,Wix AI Research and Data Science 负责人

06 可用性说明

新版 ChatGPT Images 模型即日起面向全球所有 ChatGPT 用户与 API 用户分阶段上线,无需手动切换模型即可默认使用。此前发布的 ChatGPT Images 将继续作为 custom GPT 对所有用户开放。

OpenAI 表示,本次更新标志着图像生成技术迈入更高可靠性与可用性阶段,后续将持续优化细粒度编辑能力、跨语言图文协同等方向。

【声明】内容源于网络
0
0
果叔Ai全球化笔记
各类跨境出海行业相关资讯
内容 77
粉丝 0
果叔Ai全球化笔记 各类跨境出海行业相关资讯
总阅读977
粉丝0
内容77