搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
AI 记得你说过什么,但没有真的懂你
>
AI 记得你说过什么,但没有真的懂你
硅基生命AIGC
2026-04-24
5
我们可能混淆了两个完全不同的概念:记住以及学会。
今天的 LLM 在训练的时候,把互联网上的海量文字压缩进参数,逼自己提取规律、建立结构、泛化到没见过的场景,这是
学会
。一旦部署出去,它就只剩下
记住
,通过上下文窗口、检索系统、外部笔记,把信息塞给它用。
问题是,记住和学会的效果相差甚远!
AI 就像《记忆碎片》里的男主
电影《记忆碎片》里的 Leonard,每隔几分钟记忆就会清空。只能通过纹身和宝丽的照片来维系对世界的认知。
今天的 AI 也是同一种处境。对话结束,上下文清空,下一次对话就会从零开始。system prompt 就像是它身上的纹身,聊天记录则是它手里的照片。
(
ChatGPT
的记忆功能用起来感到不舒服,因为我们抗拒被记录后,仍然不被理解。它记得你上次说了什么,但没有因此变得更懂你。)
训练和部署之间有一道墙
Ilya Sutskever 说过这样一句话:预训练在某种意义上
过度完成
了目标。我们造出了一个什么都会的系统,但人类不是这样成长的。就算是一个天才,也需要在真实的工作里摸爬滚打,才能真正变成一个医生或程序员。学习是过程,不是出厂设置。
我们对 LLM 做的恰恰与此相反:训练结束,冻结参数,然后把它推出去。
训练阶段,模型在做的事情是有损压缩的,把原始数据压缩成参数,丢掉冗余的东西,提取规律。正是这种舍弃,让它学到了可以迁移的结构,不仅仅是记住例子。但部署之后,我们不让它继续压缩了。我们给它搭了一个越来越大的外部存储,让它查而不是学。
检索和创造是两回事
有些问题,答案已经存在了,只需要找到再进行重组就行,检索系统对这类问题非常有效。
但有些问题,答案是需要被创造出来的。
费马大定理从 1637 年悬置到 1995 年,不是因为没有足够多的数学文献,而是解决它需要发明新的数学
工具
(把椭圆曲线和模形式两个本来毫不相干的领域桥接起来)。
针对这类问题,需要在现有知识的基础上,找到一个新的
角度
,建立新的表征,然后进行推理。
我不知道当前的 LLM 是否真的缺少这种能力,还是只是规模还不够大。这个问题目前没有答案。但我相信,单纯靠
给它更多上下文
,是造不出这种能力的。
有些知识只能在参数里
有些东西,单靠语言是说不清楚的。
一个放射科老医生看片子,能快速感知到某个位置的异样,但他很难用语言把那个感知完整传递给实习医生。一个顶级钢琴家知道某段曲子怎么弹,但他的身体知道的,比他嘴上能说的多得多。
这类知识,在认知科学里叫做隐性知识。它高维、连续、难以符号化。你没办法把它写进 prompt 里,因为 prompt 是语言,语言是有损的压缩。
上下文窗口再大,也大不过语言本身的边界。某些知识只能通过梯度下降的方式压缩进去,不能靠文字传递。
这让持续学习这个研究方向变得格外重要——它研究的是,如何让模型在部署之后,还能继续把新经验压缩进参数,而不只是堆进上下文。
让 AI 边用边学,为什么这么难
持续学习听起来似乎很简单:让模型在用的过程中学,不就好了?
但实际上几乎避免不了所谓的灾难性遗忘——模型学了新的东西,旧的就可能被覆盖掉。参数的空间是有限的,新知识和旧知识会抢地方。人类大脑有海马体和新皮质分工协作来解决这个问题,白天学习,晚上整合,
时间
尺度不同,互不干扰,但模型不行。
除此之外,不变的规则和可变的事实,被压进了同一批参数里。你更新了某公司 CEO 是谁,可能顺带破坏了 CEO 这个词表达了什么。参数更新是全局性的,但知识是有结构的。
更别提一个在部署后持续更新参数的模型,它的对齐状态是不稳定的,很难被审计,也很难被版本控制。今天通过测试的模型,明天可能就不是同一个东西了。
我们可能低估了「架构」这件事
目前大多数持续学习的尝试,都是在 Transformer 的基础上加模块、加正则化、加记忆层。
有一部分研究者相信,如果想让一个系统真正地持续学习,需要从架构层面重新设计,不是在现有架构上不断缝缝补补。
我无法判断哪条路更有可能走通。但可以注意到的是:AI 领域出现真正的能力跃迁,几乎都伴随着架构的改变,不单纯是数据或算力的增加,Transformer 本身就是一个例子。
【声明】内容源于网络
0
0
硅基生命AIGC
专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
内容
143
粉丝
0
关注
在线咨询
硅基生命AIGC
专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
总阅读
3.0k
粉丝
0
内容
143