最近,AI 圈发生了一件影响重大的事。
DeepSeek研究员陈德里——DeepSeek-V4、R1、Coder等核心模型的架构贡献者——搭建了一个让AI自主做研究的系统,叫“Deli AutoResearch SKILL”。然后,他只抛出了一个课题,AI就开始自己干了。6天后,在经历了108轮Agent交互、消耗了约65万token后,AI产出了46页论文,103篇参考文献。
最重要的是,AI独立完成了检索文献、梳理框架、组织内容、生成图表、撰写正文、检查引用、修格式的全部过程,陈德里真正动脑的时间不到2小时。他在博客里坦言:“大概1%是我写的,99%是Agent写的。”
这件事在技术社区引发了热烈讨论,它无疑代表了一个信号——如今,AI Agent某种程度上已经具备“独立”完成复杂任务的能力。
对当下正欲拥抱AI的千行百业来说,大家恐怕更想问的是:连搞研究这么难的事儿AI都能自主完成了,那处理业务问题的企业级Agent们,距离“独立”还有多远?
△ 图源/AI生成
企业Agent“独立上岗”的三大条件
当视角迁移到企业场景,问题就变得更加具象化:一个客服Agent,能不能独立处理退换货全流程?与客户沟通、查订单、判断责任、提出方案、建工单、跟进并闭环。一个销售Agent,能不能独立跟完一个商机?主动触达潜在客户、识别意向、调案例库、制定解决方案、发报价。不用人跟,全程自己搞定。
如果企业Agent真能达到这种“独立上岗”状态,对行业来说简直是降维打击。然而,今天大多数企业Agent,离这个目标都有一定差距。
从陈德里的论文里能够分析出:一个Agent要真正独立跑完一条长任务链路,以下三种能力缺一不可:
自主规划:
考验Agent的“思考”能力,是否能够根据目标自己规划行动,知道任务怎么拆,先做什么后做什么。L2的Agent能执行但每一步都需要人为确认,到L3才真正迈过多步自主的门槛。
工具调用:
考验Agent的“动手”能力,是否会写代码、查数据库、调系统接口等。学会调用专业工具的Agent能大幅提升任务执行的质量,就像陈德里提到的AI化学智能体系统“ChemCrow”,在集成了18种化学专用工具后,任务正确率从GPT-4原始的不到30%跳到75%。
持续记忆:
这是Agent能够处理复杂的长链条任务的关键。Agent要能够清楚记得每一步走到哪了?上次跑出来的结果是什么?
陈德里将“上下文窗口限制”列为当前未解决的六大难题之一:一次长时间会话可能产生十万以上的token,超出窗口的早期信息永久消失。即使层级编排可以部分缓解,但真正的跨会话"研究记忆"仍是难题。
就目前的AI而言,前两种能力相对更强而且进步很快。而第三种“持续记忆”能力正是AI圈在努力攻克的短板。
记忆能力——AI从工具迈向“数字员工”的最后一块拼图
为什么记忆是那块最短的板?拿AutoResearch自己来对照最清楚。
陈德里的系统能跑通6天、108轮交互、最后产出40多页的完整论文,有一个隐藏前提:它从头到尾记得自己干了什么。第一轮检索的文献,第四轮写正文的时候还在引用。第一轮被驳掉的论点,第五轮不会重复出现。
如果任何一轮出现记忆错乱或者清零,那6天跑下来的沉淀约等于零。
这也正是大多数企业Agent的短板。
客服Agent昨天帮客户改了地址,今天同一个客户来问进度,它问“您好,请问有什么可以帮您”。销售Agent上个月跟了几十个意向,这个月打开客户列表,列表是新的。运维Agent每次告警都是“全新事件”,上一次怎么处理的经验,没了。
市面上Agent怎么处理记忆,目前主流是两种思路。
第一种,给Agent挂一个RAG检索库。把历史对话切成片段存进去,需要的时候根据关键词搜出来,贴进当前的提示词里。这个方案的问题在于,RAG返回的只是一段文本,但这段文本是在什么语境下产生的、当时做这个决策的前因后果是什么、这个信息在今天这个场景里到底能不能复用——AI自己判断不了。相当于它只是从档案室里把记录翻了出来,而并没有“记住”事情原本的样子。
第二种,把上下文窗口拉大。让Agent在单次会话里能装更多内容。但这本质上是缓存而不是记忆,就像一个超长的“便签条”。当会话关掉重启,记忆仍然清零。就像一个客服Agent跟客户完成了上百轮对话,但当客户关掉对话框,几分钟后重新进来的时候,不得不再次重复之前的对话。它的“记忆”,只存在于对话窗口之内。
从L1到L5的自主性跃迁中,记忆是那根横在最中间的硬骨头。跨过去,Agent才算是从“能干活的工具”迈进了“能攒经验的数字员工”。
行业共识:记忆要从底层建起
就在陈德里的AutoResearch刷屏的同一周,Elasticsearch的团队发了一套专门给AI Agent用的持久化记忆层。他们做法是把记忆分成三类:情景记忆,记住“上周三发生了什么”;语义记忆,提炼“这件事意味着什么”;程序记忆,记录“遇到这种事该怎么做”——并且带了成功和失败计数器。一个曾经有效的解决方案,如果后来不灵了,系统会自动降权,而不是盲目复用。
Elasticsearch团队把向量存储、关键词引擎、审计日志和鉴权服务四个组件全部收进一个引擎里,用混合检索加二次排序把精度做到了89%,多租户之间数据互不泄漏。他们坦诚地说,此次评测用的是特定语料库而不是通用基准,所以这个成绩暂时不能跨系统比较。但他们的方向与思路,印证了一个越来越清晰的行业共识——AI的“记忆”需要被当成基础设施,从底层建起。
这也是红熊AI“记忆科学”的核心方向与价值。我们把人脑的记忆机制逐层映射到AI的底层架构上,构建了感知记忆、工作记忆、情景记忆、显性记忆、隐性记忆的五层记忆架构。这五层协同运转,让信息从接收到沉淀形成了一套完整的闭环。同时,架构内置了“记忆萃取”“自我反思”“记忆遗忘”等核心引擎,让记忆库可以自我维护,并通过记忆共享机制实现集群化Agent记忆协同。
△ 记忆科学系统
当记忆不再是“外挂资料库”,而是以原生姿态生长在底层架构里,Agent才有可能从“数字工具”进化为能自主干活、能积累经验的“数字员工”。
当下,企业应该如何选型AI Agent
如果你正在考虑给团队部署AI Agent,或者已经上线了总觉得“差点意思”,AutoResearch和Elasticsearch这两件事合在一起,其实已经给出了一个很具体的信号。
过去大家考察Agent,主要关心的是:回答流不流畅、支持多少功能、模型参数有多大。这些当然重要,但它们是“能力”维度的东西。而AutoResearch提醒了我们另一件事:一个Agent有多好用,更大程度上取决于它能不能在干活的同时保留记忆、积累经验、持续学习和进步。
说得具体一点,选型时可以重点关注Agent的记忆能力:是否能跨渠道、跨会话地记住客户说了什么,上次怎么处理的,哪些偏好要重点关注?如果厂商只能告诉你“我们挂了知识库”“我们支持多少token的上下文”,那追问一句:会话关掉以后,这些东西还在不在?下一次能不能自动用上?
你的Agent是越用越懂业务,还是每天都在归零——这个差距,可能从选型时就已决定。

