【新智元导读】过去比拼Agent执行力,未来竞争将转向自我进化能力。
AI能否实现自主进化?Meta最新研究揭示关键突破:系统不仅能优化任务执行,更可修改自身的进化机制。
华人学者Jenny Zhang联合Meta AI、UBC等机构提出的HyperAgents(DGM-H),实现了元认知自我修改——即让AI能够调整"如何改进自身"的底层逻辑。
这一框架将执行任务的Agent与负责优化的Meta Agent融合为统一可编辑程序,突破了传统自我进化系统依赖任务与能力对齐的限制。
实验表明,HyperAgents可在编程任务外实现跨领域自我改进:在论文评审中得分从0提升至0.710,机器人奖励设计任务中从0.060提升至0.372,并将改进能力迁移至奥数评分等新领域。
其核心突破在于,系统开始自主构建性能追踪、持久记忆等基础设施,形成持续优化的进化体系。
往往的自我进化其实还只是半手工
前代系统Darwin Gödel Machine(DGM)虽能在编程任务中显著提升性能(如SWE-bench从20%至50%),但其进化能力受限于任务特性——编程能力提升直接强化自我改进机制,形成天然对齐。
当任务扩展至论文评审、机器人设计等非编程领域时,该对齐关系消失,导致原有框架失效。DGM需人工定制(DGM-custom)才能维持竞争力,暴露出改进机制被固化的根本局限。
HyperAgents新在哪里?
关键突破在于解除了"元机制不可修改"的预设。系统将Task Agent与Meta Agent整合为可动态编辑的HyperAgent,使进化方向不再受人工设计的instruction-generation机制制约。
AI不再仅优化答案和工作流,而是直接改进"生成修改策略"的元逻辑。这标志着从轨道内优化到系统自主演化的质变。
自我改进开始跨域迁移
在编程基准测试中,HyperAgents保持与DGM相当的提升效果(Polyglot从0.140至0.340);更重要的是,它在非编程任务展现泛化能力:
- 论文评审:测试集得分从0提升至0.710
- 机器人奖励设计:从0.060提升至0.372
- 跨任务迁移:在奥林匹克数学评分中,经迁移的HyperAgent仅50轮即达0.630分
消融实验证实,开放性探索和持续自我改进机制是性能跃升的关键驱动力。
它开始自己长基础设施了
HyperAgents在迭代中自主生成四大核心组件:性能追踪系统、持久记忆库、评估分析引擎、算力感知规划器。
系统自动记录跨代指标,例如通过内存条目分析:"某代理评审严格度高但平衡性欠佳,下一轮需融合两者优势"。这种经验沉淀能力终结了"重复发明轮子"的循环,使优化从孤立修补转向系统性演进。
这不是AGI宣言,但旧规则确在失效
当前实验仍在沙箱与人工监督下运行,任务分布等外层框架尚未完全开放。但元认知自我修改机制已预示行业范式变革:
未来竞争核心将从单点能力转向"改进能力的产品化"。企业护城河或将从参数规模转移至能否构建跨任务、可持续的进化系统。开发角色也将转变——工程师需设计可供AI自我优化的边界条件,而非直接定义进化的具体路径。
正如论文强调:当AI开始重塑自身的进化法则,安全监管机制的时效性将面临严峻挑战。
作者简介
Jenny Zhang现为英属哥伦比亚大学AI博士生,师从Jeff Clune,研究聚焦开放式进化与自我改进系统。其代表作《HyperAgents》与《Darwin Gödel Machine》推动了AI自主进化研究。本科毕业于帝国理工学院,曾于Meta担任研究科学家实习生,长期致力于构建能持续自我提升的AI系统。

