

6位前DeepMind老将打造「AI指挥官」，一半成本刷新SOTA

新智元

2025-12-14

【新智元导读】

6位前DeepMind成员创立Poetiq公司，推出元系统重塑大模型调用方式。其基于Gemini 3 Pro的优化技术在ARC-AGI-2基准测试中以54%准确率刷新SOTA，单任务成本仅31美元，为此前最优方案的一半。

由6名前Google DeepMind研究员与工程师联合创立的Poetiq，聚焦于构建元系统而非训练更大模型。该系统可调用任意前沿大模型，自动生成适配特定任务的推理策略与模型组合，显著提升复杂问题解决能力并降低整体推理成本。

12月8日，ARC Prize官方验证：Poetiq系统在ARC-AGI-2 leaderboard上取得54%准确率，单题成本30.57美元，大幅优于此前Gemini 3 Deep Think的45%准确率与77.16美元成本。

Poetiq创始团队共拥有53年AI研发经验，目标是“以更优的推理，铺就通过安全超级智能的最快路径”。

Poetiq元系统不依赖特定大模型，亦无需微调自有模型，而是通过程序化调用现成模型（如Gemini 3、GPT-5.1、Grok-4-Fast、GPT-OSS-120B等），动态生成最优推理流程。

该元系统具备递归自我改进能力，可自主决定是否生成代码、由哪一模型执行，并实时评估进展、终止冗余计算，从而兼顾性能与效率。

Poetiq已将元系统应用于Google DeepMind、OpenAI、Anthropic及xAI发布的多个主流模型，在ARC-AGI-1测试中全面实现“提准降本”。

其核心机制为多步循环式解题：先由大模型生成初步答案（含代码），再基于反馈分析、迭代优化，最终输出高置信度结果。

系统内置自我检查模块，能动态判断信息充分性与结果可靠性，避免算力浪费，支撑可持续的成本效益边界拓展。

ARC-AGI系列测试聚焦抽象推理、归纳、逻辑与策略生成能力，直击当前大模型在复杂推理中稳定性不足、提示词依赖性强、步骤不可控等核心痛点。

Poetiq元系统不预设推理路径，而是让模型自主发现最优策略，并在预算、Token或算力约束下动态适配——这正契合ARC-AGI对“自动化、可优化、强泛化”推理能力的评估诉求。

团队正拓展至更多基准任务，覆盖多样化推理与检索场景，并探索将元系统嵌入大型AI系统内部，优化现有组件而无需修改模型本身。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14604

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读76.0k

粉丝0

内容14.6k