大数跨境
0
0

6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA

6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA 新智元
2025-12-14
5

【新智元导读】

6位前DeepMind成员创立Poetiq公司,推出元系统重塑大模型调用方式。其基于Gemini 3 Pro的优化技术在ARC-AGI-2基准测试中以54%准确率刷新SOTA,单任务成本仅31美元,为此前最优方案的一半。

Poetiq团队与技术突破

由6名前Google DeepMind研究员与工程师联合创立的Poetiq,聚焦于构建元系统而非训练更大模型。该系统可调用任意前沿大模型,自动生成适配特定任务的推理策略与模型组合,显著提升复杂问题解决能力并降低整体推理成本。

12月8日,ARC Prize官方验证:Poetiq系统在ARC-AGI-2 leaderboard上取得54%准确率,单题成本30.57美元,大幅优于此前Gemini 3 Deep Think的45%准确率与77.16美元成本。

Poetiq团队背景

Poetiq创始团队共拥有53年AI研发经验,目标是“以更优的推理,铺就通过安全超级智能的最快路径”。

元系统:在任意模型上构建智能

Poetiq元系统不依赖特定大模型,亦无需微调自有模型,而是通过程序化调用现成模型(如Gemini 3、GPT-5.1、Grok-4-Fast、GPT-OSS-120B等),动态生成最优推理流程。

  • Gemini-3-a/b/c配置在广泛算力区间内实现帕累托最优;
  • Grok-4-Fast方案在极致成本下仍达高准确率,媲美价格高两个数量级的模型;
  • GPT-OSS-b基于开源GPT-OSS-120B,单题成本不足1美分,表现亮眼;
  • GPT-OSS-a则验证极限低成本下的系统鲁棒性。

该元系统具备递归自我改进能力,可自主决定是否生成代码、由哪一模型执行,并实时评估进展、终止冗余计算,从而兼顾性能与效率。

强化主流模型:更高准确率 + 更低成本

Poetiq已将元系统应用于Google DeepMind、OpenAI、Anthropic及xAI发布的多个主流模型,在ARC-AGI-1测试中全面实现“提准降本”。

其核心机制为多步循环式解题:先由大模型生成初步答案(含代码),再基于反馈分析、迭代优化,最终输出高置信度结果。

系统内置自我检查模块,能动态判断信息充分性与结果可靠性,避免算力浪费,支撑可持续的成本效益边界拓展。

为何选择ARC-AGI作为验证基准?

ARC-AGI系列测试聚焦抽象推理、归纳、逻辑与策略生成能力,直击当前大模型在复杂推理中稳定性不足、提示词依赖性强、步骤不可控等核心痛点。

Poetiq元系统不预设推理路径,而是让模型自主发现最优策略,并在预算、Token或算力约束下动态适配——这正契合ARC-AGI对“自动化、可优化、强泛化”推理能力的评估诉求。

团队正拓展至更多基准任务,覆盖多样化推理与检索场景,并探索将元系统嵌入大型AI系统内部,优化现有组件而无需修改模型本身。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14604
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读76.0k
粉丝0
内容14.6k