

突发！OpenAI发布最强模型o1：碾压其他大模型

瀚鹏AI

2024-09-13

导读：今天凌晨1点，OpenAI终于正式发布了传说中的“草莓”模型——o1。

今天凌晨1点，OpenAI终于正式发布了传说中的“草莓”模型——o1。除了名称不同外，o1在功能、推理和性能上与之前泄漏的信息基本一致。o1采用了一种独特的推理模式：在回答问题前，它会进入拟人化思考状态，将问题分解成更小的步骤，通过一个较长的内部思维链进行处理，从而提供更精确的回答。

谷歌DeepMind早前将这种技术称为“训练时计算”，其核心包括密集型的验证奖励模型搜索和自适应更新模型响应概率分布的方法。根据OpenAI公布的数据，o1在美国数学奥林匹克预选赛中排名前500，并在物理、生物学、化学领域首次超过了人类博士，成为现役最强的超复杂推理大模型，超越了GPT-4o。

o1发布：推理能力突破极限，超越传统模型

o1的主要开发人员介绍了这款产品，并且用户反映它成功写出了之前模型无法完成的复杂藏头诗。o1在生成答案时表现出独特的推理模式，通过反复推理和自我纠正，显示出显著的进步。与以前的模型相比，o1的推理能力、准确性和思维复杂性都有了显著提升，超越了人类博士的水平，结果令人惊讶。期待已久的草莓模型终于发布了，并且这次没有候补名单。AGI的震撼感受就在眼前，它的推理能力远超前所未有的水平，甚至能够与Claude竞争。在国际数学奥林匹克资格考试中，GPT-4o仅正确解答了13%的问题，而o1的得分达到了83%，编程竞赛中的表现也更加突出，实在令人惊叹。

o1的主要技术特点如下：

拟人化推理模式是o1的核心功能之一。与传统模型不同，o1在回答问题前会进行深入思考，生成较长的内部思维链，这使它能更好地理解问题的本质和各个方面，从而提供更准确合理的答案。

自适应强化学习与纠错机制是其第二大特点。o1通过大规模强化学习算法训练，学会了如何高效利用思维链来解决问题。这种训练方法帮助o1不断优化策略，识别和纠正错误，将复杂步骤简化，并在方法无效时尝试新方案，从而显著提升了推理能力，使o1具备了智能体功能。

o1还使用了类似于谷歌的训练时计算技术。OpenAI发现，增加计算资源和延长测试思考时间能进一步提升o1的性能，显示了其潜力在各种任务中的出色表现。

此外，o1的其他特色功能包括：能够直接翻译不完整的句子并自动补全内容；根据提示编写复杂的视频小游戏；擅长处理超复杂且冗长的推理问题。

o1测试成绩亮眼：在多领域超越前代模型与人类专家

OpenAI对o1进行了广泛测试，结果显示其在多个领域表现优异。在Codeforces编程竞赛中，o1超过了83%的专业人员。在AIME2024数学竞赛中，o1平均解决了74%的问题，而GPT-4o只能解决12%。利用64个样本的共识，o1的解决率提升至83%，重新排序1000个样本时更高达93%，使其成绩跻身美国前500名学生，超越了数学奥林匹克的入选标准。

在PhD-Level Science Questions（GPQA Diamond）测试中，o1的表现也优于人类专家。在ML Benchmarks的多个子类别中，如MATH-500、MathVista、MMMU、MMLU等，o1的准确率均高于GPT-4o。此外，o1在AP English Lang、AP English Lit、AP Physics 2、AP Calculus、AP Chemistry、LSAT、SAT EBRW、SAT Math等考试中的成绩也明显优于GPT-4o。

总之，o1的发布标志着AI推理能力的一次重大突破。凭借其创新的拟人化推理模式、自适应强化学习以及显著提升的性能，o1不仅超越了之前的模型，也在各类测试中展现出卓越的表现。无论是在编程竞赛、数学竞赛，还是科学问题的解答，o1都表现出极高的准确性和复杂性处理能力。随着技术的不断进步，o1无疑将推动AGI领域的进一步发展，为各行业带来深远的影响。

深圳领驭科技有限公司，作为微软中国南区的核心合作伙伴及HK CSP资质持有者，已成为国内首批获得Azure OpenAI服务授权的服务商之一。我司正积极整合Azure OpenAI的强大功能，包括先进的自然语言处理、分析和推理能力，到其产品和行业解决方案中。

Azure OpenAI服务通过其大规模生成式AI模型，支持企业客户根据特定需求和场景，开发创新应用，涵盖辅助写作、代码编写、多媒体内容生成以及数据分析等多个领域，为互联网、游戏、金融、零售、医药等行业以及自动驾驶和智能制造等前沿技术领域带来深远影响。

联系我们

深圳领驭科技有限公司

电话：0755 8654 3872

电邮：marketing@leinwin.com

网址：ai.leinwin.com

地址：深圳市南山区粤海街道高新科技园中区科技中三路5号国人通信大厦A座 902