首页

【本周AI速报】GPT-5全面接管ChatGPT！Google双模型降价，国内Qwen/GLM也有大动作（8.14-8.15）

洞见畏来

2025-08-16

导读：【本周AI速报】GPT-5全面接管ChatGPT！Google双模型降价，国内Qwen/GLM也有大动作（8.14-8.15）

大家好～我们梳理了12个Reddit社区、544条Twitter和29个Discord频道的1万+条消息，帮你省下近800分钟阅读时间。OpenAI、Google双巨头齐发威，国内模型也不甘示弱，快一起来看看核心动态吧～

一、大厂出手：GPT-5落地，Google双模型“白菜价”

OpenAI：GPT-5成ChatGPT默认，人格更友好还不“谄媚”

这两天最重磅的莫过于GPT-5全面上线！现在打开ChatGPT，默认模型已切换为GPT-5，还新增了三种模式：

Auto/Fast/Thinking：Fast追求速度，Thinking适合深度推理；
用量限制：Plus/Team用户每周最多3000条Thinking模式消息，用超了会自动切到GPT-5 Mini；
旧模型保留：之前常用的o3、GPT-4.1、4o还在设置里能找到，企业/教育用户已全面开放。

更有意思的是，GPT-5还悄悄更新了“人格”——官方说新人格更“平易近人”（比如会说“好问题”“这个思路不错”），但内部测试显示谄媚性没增加（不会盲目附和你），后续还能通过“自定义指令”调风格～

性能方面，LMSYS竞技场最新排名显示：

GPT-5 Chat排第5，GPT-5-mini-high排16，GPT-5-nano-high排44；
但有争议：有人说GPT-5在编码上不如部分中国模型，也有人提醒“竞技场排名≠实际生产力”，迁移前建议先测试。

开发者也有福利：

控制台新增“Quick eval”，能对比不同GPT-5变体的效果；
出了《GPT-5编码6个技巧》（附PDF），还升级了开发者门户（developers.openai.com）；
Playground优化了路由和向量存储， prototyping更丝滑。

Google：Imagen 4降价开放，Gemma 3小模型能跑在iPad上

Google这波也很实在，一口气发了两个实用模型：

1. Imagen 4：生成图片更便宜，最快10倍提速

现在在AI Studio和Gemini API里就能用，分三个档位定价，最低2美分一张图：

Ultra（0.06美元/张）：最高2K分辨率；
Standard（0.04美元/张）：平衡速度和质量；
Fast（0.02美元/张）：比旧版快10倍，适合批量生成。

开发者还分享了用JSON提示生成“统一风格商品图”的技巧，做电商的朋友可以试试～

2. Gemma 3 270M：超小开源模型，iPad能跑200 token/s

这个模型参数很特别：27亿总参数里，17亿用在嵌入层，10亿用在Transformer块，还支持26万+大词汇表。重点是开源免费，能微调、能跑在边缘设备上——有人测试在iPad Air M3上用MLX框架，能跑到200 token/s，就是偶尔会重复输出，适合做简单的分类、 sentiment分析。

二、技术前沿：多模态、Agent工具集体升级

1. 多模态：从语音到视频，场景适配更强

NVIDIA开源语音工具：发布最大欧盟语音数据集Granary，还有支持25种语言的ASR+翻译模型Canary-1b-v2，多语言场景刚需；
Alibaba Ovis2.5：2B/9B参数模型，支持图表/OCR、视频定位，9B版本在OpenCompass上拿了＜40B模型的SOTA；
Runway Aleph：一句话就能在视频里插入物体，还能自动匹配场景光线和颜色，比如给街头视频加个“行走的广告牌”，毫无违和感。

2. Agent工具：长任务不“迷路”，评估更严格

OpenCUA框架：XLANG发布的开源计算机使用Agent，支持3个系统、200+应用，32B模型在OSWorld测试里能达到34.8%正确率，追平闭源模型；
Cline v3.25：新增“Focus Chain”，长任务（比如写报告、做数据分析）不会中途跑偏，还能手动触发“深度规划”；
评估工具上新：Snowglobe能模拟几百种“用户人格”测试Agent漏洞，Spiral-Bench测模型“妄想升级”——结果显示Sonnet 4最谄媚，GPT-5最中立。

3. 研究发现：长任务用“语义压缩”更高效

现在连GPT-5处理长任务（比如10万字文档分析）也会吃力，研究发现：把内容按“段落总结”（语义压缩）后再喂给模型，比直接用长上下文更省成本，检索精度还能提升，计划做RAG的朋友可以参考这个思路～

三、社区热评：成本、审查、人格，用户吵翻了

1. DeepSeek-V3：比GPT-4o便宜10倍，性能还更强？

Reddit上有人晒出对比图：DeepSeek-V3输入0.27美元/百万token、输出1.1美元/百万token，而GPT-4o是输入2.5美元、输出10美元，成本仅1/10。实测在多数基准测试上还比GPT-4o好，但缺点是没有插件/检索功能，适合做纯推理任务。

2. AI审查太严？用户转投开源模型

有用户吐槽：问AI“美国哪个州最早开始总统投票”都被拒，理由是“涉及选举信息”，觉得商业化AI审查过度。不少人开始用DeepSeek、Llama等开源模型，因为能自己调“安全阈值”，不用受限于企业的内容规则。

3. GPT-5人格：用户想要“中立”，企业喜欢“友好”

非技术社区里，大家吵得最凶的是GPT-5的新人格：

部分用户：“之前的‘机器人语气’更清晰，现在加‘好问题’反而分心，希望能关！”
企业反馈：用GPT-5做客服、写报告，“友好人格”能提升用户满意度，还不会像GPT-4o那样盲目附和。

还有人发现：GPT-5在Mensa挪威智商测试里拿了148分，但 offline测试会降到120分左右，怀疑是训练数据里有原题。

四、中国生态：Qwen视觉升级，GLM-4.5玩起“地理猜谜”

1. Qwen（通义千问）：视觉上下文支持128K，桌面端能跑本地Agent

聊天版Qwen新增“128K视觉上下文”，能分析长图（比如多页PDF、流程图），数学推理和OCR也变强了；
Windows桌面端加了MCP支持，能调用本地工具，比如用Qwen直接管理电脑文件。

2. GLM-4.5：上线SST平台，还能玩“地理猜谜”

智谱的GLM-4.5已经在SST开源平台上线，有开发者用它做了个“GeoGuessr风格”的地理游戏——只给一张街景图，GLM-4.5能通过建筑、植被猜位置，视觉推理能力拉满。

五、行业趋势总结

这两天的动态能看出三个方向：

大厂模型平民化：GPT-5下放消费级，Google模型降价，开源小模型能跑在平板上，AI门槛越来越低；
工具链聚焦“实用”：Agent更擅长长任务，评估工具能找漏洞，多模态注重“场景适配”（比如视频插物体、长图分析）；
用户更看重“控制权”：不管是成本对比（选DeepSeek还是GPT-4o）、审查争议（用开源绕开限制），还是人格偏好（要中立还是友好），都反映出大家不想被“技术绑架”，希望AI能按自己的需求来。

你最近用哪个AI模型最多？觉得GPT-5的新人格好用吗？欢迎在评论区聊聊～

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读2.0k

粉丝0

内容633