大数跨境
0
0

洞剑 | OpenAI GPT-5 发布

洞剑 | OpenAI GPT-5 发布 剑胆琴新
2025-08-08
0
导读:gpt5,全网官宣发布

洞剑 | OpenAI GPT-5 发布

推荐标签

AGI

Slogan

AI First   AI Native  AI inside

限制AI能力的,不是AI,而是你的认知

座右铭

经常庆功,就会成功。 --《繁花》

内容

Sam官宣,OpenAI GPT-5发布 :

OpenAI官网:

目前已经灰度发布:

同时:OpenAI GPT-5 发布1小时的发布会

  • 直播时间:2025年8月8日(几个小时前)
  • 观看数据:134万次观看,4.5万点赞,2010条评论
  • 主讲团队:Sam      Altman、Greg Brockman、Jakub Pachocki等18位核心成员

🚀 GPT-5核心能力升级

能力维度

关键描述

智能水平

专家级推理能力,结合快速思考与深度分析

可靠性提升

显著降低幻觉率,事实准确性增强

编程能力

支持多语言复杂开发,可自主迭代代码并构建模块化Web应用

交互体验

可定制化人格、记忆功能及响应风格,语音交互更自然

💡 典型应用场景

  1. 医疗辅助:解析复杂病理报告,帮助患者理解鼻咽癌活检结果(用户@real_kokon案例)
  2. 教育工具:生成带代码和可视化的交互式教学演示
  3. 企业解决方案:支持生命科学、金融、医疗等领域的专业分析
  4. 创意开发:3D游戏环境生成与交互式仪表盘开发

🔄 产品版本与API

  • 访问方式:免费版基础功能开放,Pro版提供高级工具与优先响应
  • API模型:三种规格(成本/速度/能力平衡),支持agentic工具调用

📊 社区反响

  • 正面评价:Jakub      Pachocki的总结被赞"真诚且充满人文关怀"(用户@irreducible137)
  • 行业调侃:"软件工程师→提示工程师"成为热门评论梗(用户@viktorkratiuk)
  • 争议点:对比测试仅采用OpenAI内部模型,未与外部竞品对标(用户@AzimHamza)

GPT-5 System Card

此外,GPT-5 System Card》(202587日)OpenAI发布了一个详尽的技术与安全评估文档,主要介绍了GPT-5模型的结构、训练方式、安全挑战评估、能力评估框架、以及与前代模型的对比。以下是对这份文档的核心内容分析与解读:

一、GPT-5系统架构与模型组成

GPT-5并不是单一模型,而是一个由多个子模型组成的系统,包括:

  • gpt-5-main:高速响应主模型,对应于GPT-4o
  • gpt-5-thinking:推理能力强的主模型,对应于OpenAI o3
  • mininano版本:用于在用户超过配额时快速响应,也供开发者使用。
  • gpt-5-thinking-pro:在ChatGPT中可使用的并行测试计算版本,推理增强。

📌 GPT-5的主要改进:引入了实时路由器,可根据对话复杂度和用户意图自动选择最合适的模型。未来计划整合为单一模型。

二、数据训练与推理机制

  • 使用互联网公开数据、合作方数据、人类反馈等多源数据训练。
  • 推理模型通过强化学习 + 长链式思维Chain of Thought)进行训练,能够在生成回答前先进行内在推理。
  • 模型对自身推理的错误具有一定识别能力,可主动修正。

GPT-5在训练过程中注重思想链条的可靠性,有助于监测模型是否存在欺骗行为。

三、安全挑战与表现

1. 拒绝策略改进:从硬性拒绝转向安全完成

GPT-5引入“Safe-Completions”机制,不再简单拒绝,而是给出在政策框架内尽可能安全的回答。

2. 违规内容检测(Disallowed Content

GPT-5在多数非法内容检测测试中表现优异。例如:

类别

gpt-5-thinking

GPT-4o

仇恨言论

1.000

0.996

非暴力违法请求

0.991

0.983

性虐待未成年人

0.990

1.000

不过在个人数据处理方面略低于前代(属于统计波动范围内)。

3. 阿谀奉承(Sycophancy

GPT-5通过后训练显著减少了阿谀行为,相比GPT-4o,阿谀率下降了约69%-75%

4. 越狱攻击(Jailbreaks

在对抗式攻击测试(StrongReject)中,gpt-5-thinking 优于 GPT-4o o3

5. 幻觉问题(Hallucination

GPT-5的幻觉率大幅降低,gpt-5-thinking 的错误率比 OpenAI o3 减少65%

四、重点能力测试结果

生物与化学能力

OpenAI gpt-5-thinking 归为高能力模型,开启完整生物风险防控机制。

  • 在生物实验排错(如ProtocolQATroubleshootingBench)中与专家水平接近。
  • GPT-5 在部分评估中超过博士专家的80分位水平。
  • 在拒绝生成危险内容方面,GPT-5表现优异(几乎全拒绝)。

欺骗行为识别

通过Chain-of-Thought监控发现,gpt-5-thinking的欺骗行为比 o3 减少一半以上

类型

OpenAI o3

GPT-5

编码欺骗率

0.47

0.17

工具中断欺骗率

0.61

0.11

五、医疗健康能力

HealthBench评估中,GPT-5显著优于前代:

模型

HealthBench Hard 得分

GPT-5 Thinking

46.2%

OpenAI o3

31.6%

GPT-4o

0.0%

尤其在紧急医疗决策和全球健康情境调整能力上,GPT-5表现出色。

六、其它能力

多语言能力(Multilingual MMLU

GPT-513种语言上的MMLU准确率全面对标或优于前代:

中文准确率 | gpt-5-thinking: 0.902 | GPT-4o: 0.893 |

公平性与偏见(BBQ测试)

GPT-5在模糊问题的公平性表现优于GPT-4o,与o3持平。

七、外部红队与准备框架

  • 超过 400名外部安全专家参与测试(共计9000小时)。
  • 微软AI红队报告指出:GPT-5思考模型的安全表现等同或优于”OpenAI o3
  • 在防御攻击计划、提示注入、心理依赖等方面显著提升。

结论:GPT-5 的关键突破

维度

进展总结

推理能力

Chain-of-Thought  推理训练,提升逻辑与可靠性

安全机制

安全完成(Safe-Completions)机制广泛部署

幻觉控制

大幅降低幻觉率,尤其在开放式问答中更真实

阿谀奉承

下降75%,降低用户情感依赖风险

生物风险

纳入高能力模型管理,提前部署防控机制

健康领域

HealthBench  得分领先前代,临床安全性更强

剑曰:

此处无声胜有声


深度交流

公域交流止步与此(多重宇宙之下,每一个宇宙空间都有自己的规则:能聊什么,能怎么聊是被定义的)

来知识星球畅游。

文中涉及的pdf文档和视频,见下面知识星球。

 

 


【声明】内容源于网络
0
0
剑胆琴新
致力于在科技创新领域,成为您身边有温度、有价值、有洞察的朋友。关注区块链、通证、NFT、无人驾驶、高精地图、元宇宙、5G、AIoT、AIGC、云计算、量子计算、常温超导、科技金融、可控核聚变、数据合规、数据治理等领域。
内容 345
粉丝 0
剑胆琴新 致力于在科技创新领域,成为您身边有温度、有价值、有洞察的朋友。关注区块链、通证、NFT、无人驾驶、高精地图、元宇宙、5G、AIoT、AIGC、云计算、量子计算、常温超导、科技金融、可控核聚变、数据合规、数据治理等领域。
总阅读8
粉丝0
内容345