

受够了AI总是胡说八道，OpenAI让GPT变笨！但这才是对你负责

全球风口

2025-12-17

导读：如何让AI值得依赖？

抓住风口

本期要点：如何让AI值得依赖？靠更大的模型吗？

你好，我是王煜全，这里是王煜全要闻评论。

2025年终，AI行业迎来“靠谱”与“聪明”的分水岭

2025年终，AI行业出现了一个分裂状况，究竟是要追求“靠谱”，还是要显得“聪明”？

前段时间，在谷歌压力之下，OpenAI不仅亮起了所谓红色警报，还提前上线了GPT-5.2模型。

第三方评测结果显示，GPT-5.2并未实现飞跃性进步，部分报告指出其仍落后于Gemini 3 Pro。

不少用户反馈，GPT-5.2的回答趋于冰冷生硬，逻辑推理能力甚至出现倒退迹象，“降智”成为普遍主观感受。

GPT-5.2表现不及预期，折射出大模型产业已撞上隐形天花板。

FACTS基准测试揭示核心瓶颈：事实准确率未破70%

2025年12月9日，谷歌DeepMind低调推出FACTS基准测试套件（FACTS Benchmark Suite），用科学评估数据为所有大模型泼了一盆冷水：在基于长文档问答任务中，没有任何模型的事实准确率突破70%。

这意味着——即便使用最昂贵的模型，用户仍有超30%概率接收到错误或凭空捏造的信息。

当算力与参数堆叠难再突破瓶颈，行业发展重心必须从“更大更强的模型”，转向系统工程与商业模式创新，以提升准确率，让AI真正成为可信赖的伙伴。

炼金术：LLM本质是“下一个词预测器”

在“靠谱”面前，“没那么聪明”也无伤大雅。

当前GPT-5.2表现为问什么答什么，不再延展调侃，显得刻板；而初用Gemini者则易感其“灵气”，似能领会弦外之音。

这只是大语言模型（LLM）进入平台期后，OpenAI与谷歌选择不同优化路径所致，并非能力代际跃迁。

对多数用户而言，GPT-5相较O3等前代模型并无显著差异；日常使用中，也极少人能清晰区分Gemini 3与2.5的实际差别。

长期用户普遍感知到一个共性问题：所有大模型仍频繁“一本正经地胡说八道”。

DeepMind去年12月发布的《FACTS Grounding》报告已指出：无一模型事实准确率超70%。一年过去，幻觉问题仍未获显著改善。

归根结底，这是LLM底层原理决定的局限——它本质是“下一个Token预测器”，通过海量文本学习上下文中的高频续词概率，从而“猜”出看似合理但未必真实的答案，并不真正理解事实与逻辑。

这如同古代炼金术：凭经验产出闪亮结果，却无法保证每次质量稳定；现代社会需要的，是基于严谨原理、在受控环境中可重复生成的可靠产品。

无论喂入多少数据、增加多少参数，LLM都可能被无关信息干扰，幻觉概率难以根本下降；GPT-6、GPT-7亦难逃此限。

靠谱更重要：从玩具到工具的关键抉择

此时，AI公司必须做出战略选择：让AI成为玩具，还是工具？

新用户或偏好富想象力、善制造惊喜的AI；但金融、法律、医疗等专业领域用户，首要诉求是可信度。

例如，患者持检验报告向AI问诊时，所需不是天马行空的推理，而是严谨、可靠的结论。

对企业而言，70%可靠性远不足以托付关键任务：发错一笔工资、签错一份合同，皆为实打实损失。

因此，OpenAI将模型优化聚焦于严谨性与幻觉抑制，以打开商业化空间，逻辑清晰；但仅靠模型迭代难以根治幻觉——其真正优势在于已沉淀的数亿用户基础，应着力构建“AI顾问”信任关系，而非单点技术突围。

一旦用户养成“拿不准就问ChatGPT”的习惯，便建立起强依赖，护城河自然形成。

闪电战：从“造坦克”转向“系统协同”

当更大模型不再等于更可靠，破局关键在于范式转变：从“造坦克”转向“打闪电战”。

过去领先企业聚焦单体模型性能提升，属典型“造坦克”思维——比钢板厚度、火力强度。

而当性能提升遇瓶颈，胜负取决于协同效率：多模型+外部工具+验证机制构成闭环系统，才能产出可靠结果。

例如，对高风险任务（如生死、财务决策），OpenAI可在生成初稿后，自动调用验证Agent从多角度交叉核验、补充修正，再输出终审答案——虽增加算力与时耗，却可大幅压降错误率。

由此，“无幻觉服务”可溢价交付：如200美元/月起步，乃至2000美元/月；而日常需求仍维持20美元/月，形成分级价值体系。

每一次幻觉，都是对用户信任的侵蚀；每一次可靠交付，则加固“AI顾问”的心智定位。

打出闪电战，既要思想转型——从卖模型技术转向卖可信赖的泛领域专家服务，也需速度优势。

OpenAI为应对谷歌竞争，计划未来几周收缩应用层投入、聚焦核心技术突破。但我们对此存疑：

在现有LLM架构下，几周内能否实现革命性突破？若用户真正需要的是可信赖顾问，模型参数提升真能根治幻觉、重建信任吗？

更紧迫的是，若Anthropic等强调“真实可靠”的竞对率先推出无幻觉专业服务，抢占市场心智，OpenAI多年积累的高价值用户或将快速流失，再夺回成本极高。

【声明】内容源于网络

全球风口

全球科技创新产业专家、海银资本创始合伙人、前哨科技特训营主理人王煜全的自媒体平台。

内容 2622

粉丝 0

全球风口全球科技创新产业专家、海银资本创始合伙人、前哨科技特训营主理人王煜全的自媒体平台。

总阅读15.1k

粉丝0

内容2.6k