2026年上半年,AI行业的竞赛出现了一次集体转向。
➣ 3月,Amazon推出Bedrock AgentCore Memory,用“短期事件+长期记忆”的双层架构解决了Agent"全记则爆、删减则丢"的记忆困境。
➣5月,Google在Gemini Enterprise Agent Platform中正式上线了Agent Platform记忆库,让企业AI Agent可以基于对话动态生成并维护长期记忆。
6月4日,OpenAI宣布ChatGPT记忆系统重大升级,代号Dreaming V3正式上线。新架构引入了一项被称为"做梦"的机制——用户停止交互后,系统在后台自动回放对话、提炼关键信息、持续更新记忆网络。这一功能向数亿免费用户开放,记忆准确性大幅跃升,而支撑它的算力成本反而降低了约80%。
三家头部AI公司,几乎在同一时间窗口发布与“记忆”相关的底层能力升级。这并非巧合,而是指向了同一个行业共识:AI 大模型的竞争赛道,正在从更大的参数规模、更长的上下文窗口、更多训练数据等收敛为同一个方向——更可靠的“记忆能力”。
记忆能力正成为AI技术端与应用端的双重需求
从AI技术发展到产业落地应用,记忆能力都已经当前AI的核心需求,逐渐走向舞台中央。
技术端的共识来自AGI的底层逻辑。人类智能发展的根本就在于经验积累,而没有记忆,就无法对历史经验进行理解、持续学习和进步。因此,当大模型已经足够“聪明”,下一次智能跃升就是能否从记忆中萃取经验,从经验中自主学习。
应用端的推动则来自更现实的企业需求,当AI深度融入千行百业,在各类实际业务场景中接受考验时,失忆、幻觉成了实践应用的最大制约。客服记不住用户三个月前的投诉,营销认不出回头客,销售跟进跨天工单时逻辑断裂。记忆能力决定了企业Agent是简单的“应答机器”还是可靠的“数字员工”。
AI 的“考试题”正在变化
过去AI行业的评测体系,几乎全部集中在“单次表现”上。从MMLU到HumanEval,从GSM8K到SWE-bench,这些测试分别从基础学科、代码生成、推理能力等方面切入,考察的是AI知识广不广、脑子聪不聪明等。
当行业集体转向攻克“记忆能力”时,AI的“考试题”也发生了变化。其中,LoCoMo和LongMemEval是目前全球范围内广受关注的两个针对AI记忆能力的基准测试。
△ 图源/AI生成
LoCoMo由Meta等机构在2024年提出,是AI记忆评测领域的早期基准。它模拟真实的多会话对话场景,每段对话平均包含约300轮交互,分散在最多35个会话中,共1540道测试题。它的核心价值在于验证AI在长周期、多轮次的交互中能否保持记忆连贯性。
LongMemEval则更进一步,由马里兰大学等机构联合发布于ICLR(人工智能和机器学习领域最顶尖的学术会议之一),它定义了五项核心记忆能力,共500道精心设计的题目,侧重的是跨时间、跨信息类型的认知一致性。
△ 图源/AI生成
企业Agent落地能力的真实考验
归纳起来,LoCoMo、LongMemEval等AI记忆能力相关的种种测试,考察的是AI的以下五项核心能力,基本都对应着企业Agent在业务场景落地的真实“卡点”和“痛点”:
第一项:关键信息提取能力
从大量的历史交互中精准找到特定信息。举个例子,客户三个月前在电话里提过一个特殊要求,今天换到微信上咨询时,AI能否跨渠道跨时间把这条信息准确捞出来?如果做不到,客服就得让用户“再说一遍”。
第二项:多会话整合与推理能力
把分散在不同时间、不同话题里的信息串联起来。比如,用户在本月5号问过某产品的价格,10号又问了另一款的参数。AI能不能把两次对话结合起来,推荐一个更符合用户需求的组合方案?还是说每次都只当“第一次见面”?
第三项:时序感知能力
理解事件发生的先后顺序和时间关系,并及时更新认知。用户是“先下了订单,然后申请退款”,还是“先咨询了售后,然后修改了订单信息”?顺序不同,处理逻辑完全不同。AI记不住时序,就做不对判断。
第四项:知识更新能力
当用户的信息发生变化时,AI能否识别并更新认知。用户说“我搬家了”,AI如果继续按旧地址发货,就是一次糟糕的体验,甚至可能造成直接损失。
第五项:抗幻觉能力
当用户问到历史中根本没有的信息时,AI能不能坦诚地说“没有”或“不知道”,而不是瞎编一个看似合理的答案。尤其在金融、医疗等场景中,这种“一本正经地胡说八道”可能直接演变成合规风险。
以上五种能力,恰好对应了AI Agent在真实业务中常见的五种“失忆”场景。只有在这五个维度上表现稳定的AI系统,才可能真正替代人工完成闭环,成为一名合格的“数字员工”。
结语
当记忆能力成为AI学术界、商业界的共同需求,一个明显的变化是,越来越多的AI厂商,开始主动公布自己在LoCoMo和LongMemEval上的成绩。不少行业先进的记忆系统在这类测试中已展现出不俗表现,证明AI在“记住并正确使用信息”的能力已达到了相当高的水平,但与大规模普及尚有一段距离。
这恰恰印证了一个趋势:记忆能力的评测正在从“学术研究”走向“行业标尺”,成为验证AI Agent能力边界的事实标准。
对想要部署AI的企业而言,记忆能力测试的实用价值不言而喻——在挑选AI Agent方案,不要只听厂商说自己有多强,还要看看它的记忆能力考了多少分。
AI行业的“记忆”浪潮正澎湃向前,红熊AI也是“弄潮者”之一。我们将持续关注AI记忆发展的前沿动态,并陆续发布红熊AI记忆科学在相关行业基准评测中的表现,欢迎保持关注。

