大家好~我们梳理了12个Reddit社区、544条Twitter和29个Discord频道的1万+条消息,帮你省下近800分钟阅读时间。OpenAI、Google双巨头齐发威,国内模型也不甘示弱,快一起来看看核心动态吧~
一、大厂出手:GPT-5落地,Google双模型“白菜价”
OpenAI:GPT-5成ChatGPT默认,人格更友好还不“谄媚”
这两天最重磅的莫过于GPT-5全面上线!现在打开ChatGPT,默认模型已切换为GPT-5,还新增了三种模式:
Auto/Fast/Thinking:Fast追求速度,Thinking适合深度推理;
用量限制:Plus/Team用户每周最多3000条Thinking模式消息,用超了会自动切到GPT-5 Mini;
旧模型保留:之前常用的o3、GPT-4.1、4o还在设置里能找到,企业/教育用户已全面开放。
更有意思的是,GPT-5还悄悄更新了“人格”——官方说新人格更“平易近人”(比如会说“好问题”“这个思路不错”),但内部测试显示谄媚性没增加(不会盲目附和你),后续还能通过“自定义指令”调风格~
性能方面,LMSYS竞技场最新排名显示:
GPT-5 Chat排第5,GPT-5-mini-high排16,GPT-5-nano-high排44;
但有争议:有人说GPT-5在编码上不如部分中国模型,也有人提醒“竞技场排名≠实际生产力”,迁移前建议先测试。
开发者也有福利:
控制台新增“Quick eval”,能对比不同GPT-5变体的效果;
出了《GPT-5编码6个技巧》(附PDF),还升级了开发者门户(developers.openai.com);
Playground优化了路由和向量存储, prototyping更丝滑。
Google:Imagen 4降价开放,Gemma 3小模型能跑在iPad上
Google这波也很实在,一口气发了两个实用模型:
1. Imagen 4:生成图片更便宜,最快10倍提速
现在在AI Studio和Gemini API里就能用,分三个档位定价,最低2美分一张图:
Ultra(0.06美元/张):最高2K分辨率;
Standard(0.04美元/张):平衡速度和质量;
Fast(0.02美元/张):比旧版快10倍,适合批量生成。
开发者还分享了用JSON提示生成“统一风格商品图”的技巧,做电商的朋友可以试试~
2. Gemma 3 270M:超小开源模型,iPad能跑200 token/s
这个模型参数很特别:27亿总参数里,17亿用在嵌入层,10亿用在Transformer块,还支持26万+大词汇表。重点是开源免费,能微调、能跑在边缘设备上——有人测试在iPad Air M3上用MLX框架,能跑到200 token/s,就是偶尔会重复输出,适合做简单的分类、 sentiment分析。
二、技术前沿:多模态、Agent工具集体升级
1. 多模态:从语音到视频,场景适配更强
NVIDIA开源语音工具:发布最大欧盟语音数据集Granary,还有支持25种语言的ASR+翻译模型Canary-1b-v2,多语言场景刚需;
Alibaba Ovis2.5:2B/9B参数模型,支持图表/OCR、视频定位,9B版本在OpenCompass上拿了<40B模型的SOTA;
Runway Aleph:一句话就能在视频里插入物体,还能自动匹配场景光线和颜色,比如给街头视频加个“行走的广告牌”,毫无违和感。
2. Agent工具:长任务不“迷路”,评估更严格
OpenCUA框架:XLANG发布的开源计算机使用Agent,支持3个系统、200+应用,32B模型在OSWorld测试里能达到34.8%正确率,追平闭源模型;
Cline v3.25:新增“Focus Chain”,长任务(比如写报告、做数据分析)不会中途跑偏,还能手动触发“深度规划”;
评估工具上新:Snowglobe能模拟几百种“用户人格”测试Agent漏洞,Spiral-Bench测模型“妄想升级”——结果显示Sonnet 4最谄媚,GPT-5最中立。
3. 研究发现:长任务用“语义压缩”更高效
现在连GPT-5处理长任务(比如10万字文档分析)也会吃力,研究发现:把内容按“段落总结”(语义压缩)后再喂给模型,比直接用长上下文更省成本,检索精度还能提升,计划做RAG的朋友可以参考这个思路~
三、社区热评:成本、审查、人格,用户吵翻了
1. DeepSeek-V3:比GPT-4o便宜10倍,性能还更强?
Reddit上有人晒出对比图:DeepSeek-V3输入0.27美元/百万token、输出1.1美元/百万token,而GPT-4o是输入2.5美元、输出10美元,成本仅1/10。实测在多数基准测试上还比GPT-4o好,但缺点是没有插件/检索功能,适合做纯推理任务。
2. AI审查太严?用户转投开源模型
有用户吐槽:问AI“美国哪个州最早开始总统投票”都被拒,理由是“涉及选举信息”,觉得商业化AI审查过度。不少人开始用DeepSeek、Llama等开源模型,因为能自己调“安全阈值”,不用受限于企业的内容规则。
3. GPT-5人格:用户想要“中立”,企业喜欢“友好”
非技术社区里,大家吵得最凶的是GPT-5的新人格:
部分用户:“之前的‘机器人语气’更清晰,现在加‘好问题’反而分心,希望能关!”
企业反馈:用GPT-5做客服、写报告,“友好人格”能提升用户满意度,还不会像GPT-4o那样盲目附和。
还有人发现:GPT-5在Mensa挪威智商测试里拿了148分,但 offline测试会降到120分左右,怀疑是训练数据里有原题。
四、中国生态:Qwen视觉升级,GLM-4.5玩起“地理猜谜”
1. Qwen(通义千问):视觉上下文支持128K,桌面端能跑本地Agent
聊天版Qwen新增“128K视觉上下文”,能分析长图(比如多页PDF、流程图),数学推理和OCR也变强了;
Windows桌面端加了MCP支持,能调用本地工具,比如用Qwen直接管理电脑文件。
2. GLM-4.5:上线SST平台,还能玩“地理猜谜”
智谱的GLM-4.5已经在SST开源平台上线,有开发者用它做了个“GeoGuessr风格”的地理游戏——只给一张街景图,GLM-4.5能通过建筑、植被猜位置,视觉推理能力拉满。
五、行业趋势总结
这两天的动态能看出三个方向:
大厂模型平民化:GPT-5下放消费级,Google模型降价,开源小模型能跑在平板上,AI门槛越来越低;
工具链聚焦“实用”:Agent更擅长长任务,评估工具能找漏洞,多模态注重“场景适配”(比如视频插物体、长图分析);
用户更看重“控制权”:不管是成本对比(选DeepSeek还是GPT-4o)、审查争议(用开源绕开限制),还是人格偏好(要中立还是友好),都反映出大家不想被“技术绑架”,希望AI能按自己的需求来。
你最近用哪个AI模型最多?觉得GPT-5的新人格好用吗?欢迎在评论区聊聊~

