DeepSeek已让AI独立做研究了，企业级Agent离“独立”还有多远？- 大数跨境

首页

DeepSeek已让AI独立做研究了，企业级Agent离“独立”还有多远？

红熊AI

2026-06-21

导读：一个Agent有多好用，更大程度上取决于它能不能在干活的同时保留记忆、积累经验、持续学习和进步。

最近，AI 圈发生了一件影响重大的事。

DeepSeek研究员陈德里——DeepSeek-V4、R1、Coder等核心模型的架构贡献者——搭建了一个让AI自主做研究的系统，叫“Deli AutoResearch SKILL”。然后，他只抛出了一个课题，AI就开始自己干了。6天后，在经历了108轮Agent交互、消耗了约65万token后，AI产出了46页论文，103篇参考文献。

最重要的是，AI独立完成了检索文献、梳理框架、组织内容、生成图表、撰写正文、检查引用、修格式的全部过程，陈德里真正动脑的时间不到2小时。他在博客里坦言：“大概1%是我写的，99%是Agent写的。”

这件事在技术社区引发了热烈讨论，它无疑代表了一个信号——如今，AI Agent某种程度上已经具备“独立”完成复杂任务的能力。

对当下正欲拥抱AI的千行百业来说，大家恐怕更想问的是：连搞研究这么难的事儿AI都能自主完成了，那处理业务问题的企业级Agent们，距离“独立”还有多远？

△ 图源/AI生成

企业Agent“独立上岗”的三大条件

当视角迁移到企业场景，问题就变得更加具象化：一个客服Agent，能不能独立处理退换货全流程？与客户沟通、查订单、判断责任、提出方案、建工单、跟进并闭环。一个销售Agent，能不能独立跟完一个商机？主动触达潜在客户、识别意向、调案例库、制定解决方案、发报价。不用人跟，全程自己搞定。

如果企业Agent真能达到这种“独立上岗”状态，对行业来说简直是降维打击。然而，今天大多数企业Agent，离这个目标都有一定差距。

从陈德里的论文里能够分析出：一个Agent要真正独立跑完一条长任务链路，以下三种能力缺一不可：

自主规划：

考验Agent的“思考”能力，是否能够根据目标自己规划行动，知道任务怎么拆，先做什么后做什么。L2的Agent能执行但每一步都需要人为确认，到L3才真正迈过多步自主的门槛。

工具调用：

考验Agent的“动手”能力，是否会写代码、查数据库、调系统接口等。学会调用专业工具的Agent能大幅提升任务执行的质量，就像陈德里提到的AI化学智能体系统“ChemCrow”，在集成了18种化学专用工具后，任务正确率从GPT-4原始的不到30%跳到75%。

持续记忆：

这是Agent能够处理复杂的长链条任务的关键。Agent要能够清楚记得每一步走到哪了？上次跑出来的结果是什么？

陈德里将“上下文窗口限制”列为当前未解决的六大难题之一：一次长时间会话可能产生十万以上的token，超出窗口的早期信息永久消失。即使层级编排可以部分缓解，但真正的跨会话"研究记忆"仍是难题。

就目前的AI而言，前两种能力相对更强而且进步很快。而第三种“持续记忆”能力正是AI圈在努力攻克的短板。

记忆能力——AI从工具迈向“数字员工”的最后一块拼图

为什么记忆是那块最短的板？拿AutoResearch自己来对照最清楚。

陈德里的系统能跑通6天、108轮交互、最后产出40多页的完整论文，有一个隐藏前提：它从头到尾记得自己干了什么。第一轮检索的文献，第四轮写正文的时候还在引用。第一轮被驳掉的论点，第五轮不会重复出现。

如果任何一轮出现记忆错乱或者清零，那6天跑下来的沉淀约等于零。

这也正是大多数企业Agent的短板。

客服Agent昨天帮客户改了地址，今天同一个客户来问进度，它问“您好，请问有什么可以帮您”。销售Agent上个月跟了几十个意向，这个月打开客户列表，列表是新的。运维Agent每次告警都是“全新事件”，上一次怎么处理的经验，没了。

市面上Agent怎么处理记忆，目前主流是两种思路。

第一种，给Agent挂一个RAG检索库。把历史对话切成片段存进去，需要的时候根据关键词搜出来，贴进当前的提示词里。这个方案的问题在于，RAG返回的只是一段文本，但这段文本是在什么语境下产生的、当时做这个决策的前因后果是什么、这个信息在今天这个场景里到底能不能复用——AI自己判断不了。相当于它只是从档案室里把记录翻了出来，而并没有“记住”事情原本的样子。

第二种，把上下文窗口拉大。让Agent在单次会话里能装更多内容。但这本质上是缓存而不是记忆，就像一个超长的“便签条”。当会话关掉重启，记忆仍然清零。就像一个客服Agent跟客户完成了上百轮对话，但当客户关掉对话框，几分钟后重新进来的时候，不得不再次重复之前的对话。它的“记忆”，只存在于对话窗口之内。

从L1到L5的自主性跃迁中，记忆是那根横在最中间的硬骨头。跨过去，Agent才算是从“能干活的工具”迈进了“能攒经验的数字员工”。

行业共识：记忆要从底层建起

就在陈德里的AutoResearch刷屏的同一周，Elasticsearch的团队发了一套专门给AI Agent用的持久化记忆层。他们做法是把记忆分成三类：情景记忆，记住“上周三发生了什么”；语义记忆，提炼“这件事意味着什么”；程序记忆，记录“遇到这种事该怎么做”——并且带了成功和失败计数器。一个曾经有效的解决方案，如果后来不灵了，系统会自动降权，而不是盲目复用。

Elasticsearch团队把向量存储、关键词引擎、审计日志和鉴权服务四个组件全部收进一个引擎里，用混合检索加二次排序把精度做到了89%，多租户之间数据互不泄漏。他们坦诚地说，此次评测用的是特定语料库而不是通用基准，所以这个成绩暂时不能跨系统比较。但他们的方向与思路，印证了一个越来越清晰的行业共识——AI的“记忆”需要被当成基础设施，从底层建起。

这也是红熊AI“记忆科学”的核心方向与价值。我们把人脑的记忆机制逐层映射到AI的底层架构上，构建了感知记忆、工作记忆、情景记忆、显性记忆、隐性记忆的五层记忆架构。这五层协同运转，让信息从接收到沉淀形成了一套完整的闭环。同时，架构内置了“记忆萃取”“自我反思”“记忆遗忘”等核心引擎，让记忆库可以自我维护，并通过记忆共享机制实现集群化Agent记忆协同。

△ 记忆科学系统

当记忆不再是“外挂资料库”，而是以原生姿态生长在底层架构里，Agent才有可能从“数字工具”进化为能自主干活、能积累经验的“数字员工”。

当下，企业应该如何选型AI Agent

如果你正在考虑给团队部署AI Agent，或者已经上线了总觉得“差点意思”，AutoResearch和Elasticsearch这两件事合在一起，其实已经给出了一个很具体的信号。

过去大家考察Agent，主要关心的是：回答流不流畅、支持多少功能、模型参数有多大。这些当然重要，但它们是“能力”维度的东西。而AutoResearch提醒了我们另一件事：一个Agent有多好用，更大程度上取决于它能不能在干活的同时保留记忆、积累经验、持续学习和进步。

说得具体一点，选型时可以重点关注Agent的记忆能力：是否能跨渠道、跨会话地记住客户说了什么，上次怎么处理的，哪些偏好要重点关注？如果厂商只能告诉你“我们挂了知识库”“我们支持多少token的上下文”，那追问一句：会话关掉以后，这些东西还在不在？下一次能不能自动用上？

你的Agent是越用越懂业务，还是每天都在归零——这个差距，可能从选型时就已决定。

【声明】内容源于网络

红熊AI

红熊AI国内首个融合记忆科学的企业级多模态大模型平台：提供新一代人工智能客服平台与营销服务平台，实现智能体互动服务 × 全场景赋能方案，精准营销｜动态转化｜服务闭环，AI自助解决率高达98.4%！

内容 248

粉丝 0

红熊AI 红熊AI国内首个融合记忆科学的企业级多模态大模型平台：提供新一代人工智能客服平台与营销服务平台，实现智能体互动服务 × 全场景赋能方案，精准营销｜动态转化｜服务闭环，AI自助解决率高达98.4%！

总阅读1.4k

粉丝0

内容248