

【AI】无需再训练微调，一个辅助系统让GPT-5.2准确率飙到创纪录的75%

人工智能产业链union

2025-12-26

导读：不直接依赖模型底层调优，而通过优化推理过程来进一步提升模型性能。

决定AI能力上限的，可能已不再是底座模型本身，而是外围的「推理编排」（Orchestration）系统。

在大语言模型（LLM）参数不变的前提下，仅通过优化Agentic System（智能代理系统），即可显著提升AI的推理表现。这一观点在AI初创公司Poetiq发布其最新评测结果后引发广泛关注。

Poetiq在其自研的meta-system上运行GPT-5.2 X-High，并采用ARC-AGI-2测试集进行评估。该测试集被广泛用于衡量SOTA模型在复杂抽象推理任务中的极限能力。

GPT-5.2 X-High取得突破性成绩

测试结果显示，GPT-5.2 X-High在PUBLIC-EVAL数据集上的准确率达到75%，较此前SOTA模型提升约15%，且单题成本低于8美元。

PUBLIC-EVAL是ARC测试的一部分，包含基础推理、NLP与数学任务，适合通用模型评测；而完整的ARC-AGI-2则聚焦高阶抽象、常识与创新推理，专为顶级模型设计。

Poetiq强调，此次测试未对GPT-5.2进行任何再训练或特定优化。系统完全基于已有模型构建，却实现了性能跃升，表明其meta-system具备强大泛化能力。

若该表现可延续至ARC Prize官方的SEMI-PRIVATE测试，GPT-5.2 X-High + Poetiq组合有望成为当前最强推理系统之一。

ARC Prize总裁Greg Kamradt表示：“很高兴看到这一成果。如果成绩稳定，说明该系统在模型交换方面表现出色。但在OpenAI API基础设施问题解决前，结果仍需进一步验证。”

所谓“模型交换”，指系统可根据任务需求灵活调用不同模型，无需重新训练或大规模调整架构。

OpenAI总裁Greg Brockman也转发相关成果称，GPT-5.2已在ARC-AGI-2上超越人类基准水平。

有评论指出，此次性能提升主要来自测试框架和协调机制，而非模型本身调优。即便未改变训练方式，准确率仍提升约15%，说明搜索、路由与终止逻辑仍有巨大优化空间。

另有疑问：为何X-High版本的成本低于High版本？是否因其更快收敛或推理路径更高效？

Poetiq回应称，X-High确实能更快收敛到正确答案，从而降低整体计算开销。

Poetiq由6人团队打造，核心成员来自Google DeepMind，包括联合创始人Ian Fischer与Shumeet Baluja。

其核心技术为meta-system（元系统），不依赖特定大模型，可兼容Gemini、GPT、Grok等主流模型，具备快速适配新模型的能力。

Poetiq强调，所有适配工作均在新模型发布前完成，且系统从未接触ARC-AGI任务集，却在多模型上实现跨版本性能提升，证明其捕捉到了推理过程的本质规律，而非模型特异性特征。

这种架构使小团队也能在短时间内达到SOTA水平。有业内人士评价：“在模型之上构建智能，而非内部微调，意味着几小时内即可适配新模型，极具前瞻性。”

【声明】内容源于网络

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 511

粉丝 0

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读12.9k

粉丝0

内容511