决定AI能力上限的,可能已不再是底座模型本身,而是外围的「推理编排」(Orchestration)系统。
在大语言模型(LLM)参数不变的前提下,仅通过优化Agentic System(智能代理系统),即可显著提升AI的推理表现。这一观点在AI初创公司Poetiq发布其最新评测结果后引发广泛关注。
Poetiq在其自研的meta-system上运行GPT-5.2 X-High,并采用ARC-AGI-2测试集进行评估。该测试集被广泛用于衡量SOTA模型在复杂抽象推理任务中的极限能力。
GPT-5.2 X-High取得突破性成绩
测试结果显示,GPT-5.2 X-High在PUBLIC-EVAL数据集上的准确率达到75%,较此前SOTA模型提升约15%,且单题成本低于8美元。
PUBLIC-EVAL是ARC测试的一部分,包含基础推理、NLP与数学任务,适合通用模型评测;而完整的ARC-AGI-2则聚焦高阶抽象、常识与创新推理,专为顶级模型设计。
Poetiq强调,此次测试未对GPT-5.2进行任何再训练或特定优化。系统完全基于已有模型构建,却实现了性能跃升,表明其meta-system具备强大泛化能力。
若该表现可延续至ARC Prize官方的SEMI-PRIVATE测试,GPT-5.2 X-High + Poetiq组合有望成为当前最强推理系统之一。
ARC Prize总裁Greg Kamradt表示:“很高兴看到这一成果。如果成绩稳定,说明该系统在模型交换方面表现出色。但在OpenAI API基础设施问题解决前,结果仍需进一步验证。”
所谓“模型交换”,指系统可根据任务需求灵活调用不同模型,无需重新训练或大规模调整架构。
OpenAI总裁Greg Brockman也转发相关成果称,GPT-5.2已在ARC-AGI-2上超越人类基准水平。
性能提升源于推理架构优化
有评论指出,此次性能提升主要来自测试框架和协调机制,而非模型本身调优。即便未改变训练方式,准确率仍提升约15%,说明搜索、路由与终止逻辑仍有巨大优化空间。
另有疑问:为何X-High版本的成本低于High版本?是否因其更快收敛或推理路径更高效?
Poetiq回应称,X-High确实能更快收敛到正确答案,从而降低整体计算开销。
Poetiq与meta-system技术解析
Poetiq由6人团队打造,核心成员来自Google DeepMind,包括联合创始人Ian Fischer与Shumeet Baluja。
其核心技术为meta-system(元系统),不依赖特定大模型,可兼容Gemini、GPT、Grok等主流模型,具备快速适配新模型的能力。
核心机制:迭代式推理与自我审计
- 迭代式问题求解循环:系统多次调用LLM生成、反馈、改进方案,逐步逼近最优解,区别于传统一次性输出。
- 自我审计(Self-Auditing):系统自主判断推理进度与结果质量,决定是否终止流程,有效控制成本与资源消耗。
Poetiq强调,所有适配工作均在新模型发布前完成,且系统从未接触ARC-AGI任务集,却在多模型上实现跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非模型特异性特征。
这种架构使小团队也能在短时间内达到SOTA水平。有业内人士评价:“在模型之上构建智能,而非内部微调,意味着几小时内即可适配新模型,极具前瞻性。”

