【新智元导读】
6位前DeepMind成员创立Poetiq公司,推出元系统重塑大模型调用方式。其基于Gemini 3 Pro的优化技术在ARC-AGI-2基准测试中以54%准确率刷新SOTA,单任务成本仅31美元,为此前最优方案的一半。
Poetiq团队与技术突破
由6名前Google DeepMind研究员与工程师联合创立的Poetiq,聚焦于构建元系统而非训练更大模型。该系统可调用任意前沿大模型,自动生成适配特定任务的推理策略与模型组合,显著提升复杂问题解决能力并降低整体推理成本。
12月8日,ARC Prize官方验证:Poetiq系统在ARC-AGI-2 leaderboard上取得54%准确率,单题成本30.57美元,大幅优于此前Gemini 3 Deep Think的45%准确率与77.16美元成本。
Poetiq团队背景
Poetiq创始团队共拥有53年AI研发经验,目标是“以更优的推理,铺就通过安全超级智能的最快路径”。
元系统:在任意模型上构建智能
Poetiq元系统不依赖特定大模型,亦无需微调自有模型,而是通过程序化调用现成模型(如Gemini 3、GPT-5.1、Grok-4-Fast、GPT-OSS-120B等),动态生成最优推理流程。
- Gemini-3-a/b/c配置在广泛算力区间内实现帕累托最优;
- Grok-4-Fast方案在极致成本下仍达高准确率,媲美价格高两个数量级的模型;
- GPT-OSS-b基于开源GPT-OSS-120B,单题成本不足1美分,表现亮眼;
- GPT-OSS-a则验证极限低成本下的系统鲁棒性。
该元系统具备递归自我改进能力,可自主决定是否生成代码、由哪一模型执行,并实时评估进展、终止冗余计算,从而兼顾性能与效率。
强化主流模型:更高准确率 + 更低成本
Poetiq已将元系统应用于Google DeepMind、OpenAI、Anthropic及xAI发布的多个主流模型,在ARC-AGI-1测试中全面实现“提准降本”。
其核心机制为多步循环式解题:先由大模型生成初步答案(含代码),再基于反馈分析、迭代优化,最终输出高置信度结果。
系统内置自我检查模块,能动态判断信息充分性与结果可靠性,避免算力浪费,支撑可持续的成本效益边界拓展。
为何选择ARC-AGI作为验证基准?
ARC-AGI系列测试聚焦抽象推理、归纳、逻辑与策略生成能力,直击当前大模型在复杂推理中稳定性不足、提示词依赖性强、步骤不可控等核心痛点。
Poetiq元系统不预设推理路径,而是让模型自主发现最优策略,并在预算、Token或算力约束下动态适配——这正契合ARC-AGI对“自动化、可优化、强泛化”推理能力的评估诉求。
团队正拓展至更多基准任务,覆盖多样化推理与检索场景,并探索将元系统嵌入大型AI系统内部,优化现有组件而无需修改模型本身。

