大数跨境
0
0

【AI】无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

【AI】无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75% 人工智能产业链union
2025-12-26
1
导读:不直接依赖模型底层调优,而通过优化推理过程来进一步提升模型性能。

决定AI能力上限的,可能已不再是底座模型本身,而是外围的「推理编排」(Orchestration)系统。

在大语言模型(LLM)参数不变的前提下,仅通过优化Agentic System(智能代理系统),即可显著提升AI的推理表现。这一观点在AI初创公司Poetiq发布其最新评测结果后引发广泛关注。

Poetiq在其自研的meta-system上运行GPT-5.2 X-High,并采用ARC-AGI-2测试集进行评估。该测试集被广泛用于衡量SOTA模型在复杂抽象推理任务中的极限能力。

GPT-5.2 X-High取得突破性成绩

测试结果显示,GPT-5.2 X-High在PUBLIC-EVAL数据集上的准确率达到75%,较此前SOTA模型提升约15%,且单题成本低于8美元。

PUBLIC-EVAL是ARC测试的一部分,包含基础推理、NLP与数学任务,适合通用模型评测;而完整的ARC-AGI-2则聚焦高阶抽象、常识与创新推理,专为顶级模型设计。

Poetiq强调,此次测试未对GPT-5.2进行任何再训练或特定优化。系统完全基于已有模型构建,却实现了性能跃升,表明其meta-system具备强大泛化能力。

若该表现可延续至ARC Prize官方的SEMI-PRIVATE测试,GPT-5.2 X-High + Poetiq组合有望成为当前最强推理系统之一。

ARC Prize总裁Greg Kamradt表示:“很高兴看到这一成果。如果成绩稳定,说明该系统在模型交换方面表现出色。但在OpenAI API基础设施问题解决前,结果仍需进一步验证。”

所谓“模型交换”,指系统可根据任务需求灵活调用不同模型,无需重新训练或大规模调整架构。

OpenAI总裁Greg Brockman也转发相关成果称,GPT-5.2已在ARC-AGI-2上超越人类基准水平。

性能提升源于推理架构优化

有评论指出,此次性能提升主要来自测试框架和协调机制,而非模型本身调优。即便未改变训练方式,准确率仍提升约15%,说明搜索、路由与终止逻辑仍有巨大优化空间。

另有疑问:为何X-High版本的成本低于High版本?是否因其更快收敛或推理路径更高效?

Poetiq回应称,X-High确实能更快收敛到正确答案,从而降低整体计算开销。

Poetiq与meta-system技术解析

Poetiq由6人团队打造,核心成员来自Google DeepMind,包括联合创始人Ian Fischer与Shumeet Baluja。

其核心技术为meta-system(元系统),不依赖特定大模型,可兼容Gemini、GPT、Grok等主流模型,具备快速适配新模型的能力。

核心机制:迭代式推理与自我审计

  • 迭代式问题求解循环:系统多次调用LLM生成、反馈、改进方案,逐步逼近最优解,区别于传统一次性输出。
  • 自我审计(Self-Auditing):系统自主判断推理进度与结果质量,决定是否终止流程,有效控制成本与资源消耗。

Poetiq强调,所有适配工作均在新模型发布前完成,且系统从未接触ARC-AGI任务集,却在多模型上实现跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非模型特异性特征。

这种架构使小团队也能在短时间内达到SOTA水平。有业内人士评价:“在模型之上构建智能,而非内部微调,意味着几小时内即可适配新模型,极具前瞻性。”

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 511
粉丝 0
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读12.9k
粉丝0
内容511