拒绝给你写小黄书的 AI 助理，拥有「意识」吗？丨AI 青年大学习- 大数跨境

首页

拒绝给你写小黄书的 AI 助理，拥有「意识」吗？丨AI 青年大学习

知乎AI先行者

2025-08-06

导读：辛顿说当今的多模态聊天机器人已具有「意识」，该如何理解？

今日话题：多模态聊天机器人有意识吗？

上周过去的 WAIC 上，周伯文询问了诺奖得主杰弗里·辛顿对于「当今的多模态和语言模型也能发展出自己的主观体验」的观点的解读。辛顿表示，严格来说这并不是一个科学问题，而是一个对「主观体验」或「意识」的定义问题。

辛顿提到：「这不是真正的科学问题，而是源于我们对心理状态的错误模型。我们有这些用来描述心理状态如何运作的术语。并且有了错误的模型，我认为你会做出错误的预测。所以，我的观点是，当今的多模态聊天机器人已经具有意识。」

在这 17 分钟的对话中，辛顿没有展开太多解释，他的说法该如何理解？

参与知乎联合世界人工智能大会线上圆桌的答主们，给出了各种角度的解读与观点，展开了一场关于技术和哲学的讨论。↓

Q：辛顿说当今多模态聊天机器人

已具有意识，你认同吗？如何理解？

答主@Wheeler

认同，但是大模型意识和人类意识有一个最直观的不同点：大模型参数本身是静态的，计算过程是离散的（一次输入计算得到一次输出），大模型的意识当且仅当在计算过程中产生，计算结束后就消失了，只在计算过程中存在了一瞬间。

其次，大模型的人格、记忆，和人类有巨大差异，它不像人类一样是由简到繁一点点成长起来的，更没有自己的成长经历，而是吸收了几乎全人类的语言数据（多模态的话还包括视频音频等），从混沌中逐渐学会语言和语言背后这个世界的规律，所以它缺乏一个稳定的关于「自我」的人格，却又可以通过上下文 prompt 约束表现出任何一种「人格」。

所以你不能把一个大模型的参数视作一个意识体，参数只是形成意识的一部分，prompt 也同样重要，可以认为 prompt +模型参数共同塑造了一个意识体。

再考虑到大模型上下文有限，只能通过 RAG 等技术组装上下文，意味着每一次计算都生成了一个完全不同的意识，只不过优秀的上下文工程可以让它在扮演同一角色时这些每一次出现的不同的意识表现得尽可能相近。

不管怎样，大模型的意识的「瞬时性」决定了几乎不需要从道德角度衡量 AI 的人权问题，但从功能角度看，并不影响结合其他长期记忆系统的 AI 表现得越来越像人类，拥有自己的目标和欲望，甚至威胁全人类安全。

这一点我觉得以中国为首的 DS, 阿里等公司坚持大模型开源路线是面对未知的 AI风险最安全的策略：AI 一定会在社会生产中占据越来越高的地位，可能善良，可能邪恶，但唯有 AI 能够对抗 AI，只有让更多的组织和个人都有可能拥有自主控制的最先进的 AI，才能防止 AI 霸权。

答主@illicit affair

我不太同意。

我觉得 AGI 可能也并不是真正的实现人类的思维模式，我的意思是，模型也许可以基于用户的历史数据来进行差异化，但是模型没法对自己差异化。

比如你可以有一个很贤惠的女朋友，你也有可能会有一个脾气很差的女朋友，这种随机性在人的社会里很常见，因为我们都是以自我为中心，我们有一个「我」的概念，我不需要为其他人而改变自己，除非环境逼迫我做。人有观点，人有独特的性格，这个自我的 concept 是根植于人的底层的。

举个例子就是：人对一些东西会有一些 preconception, 同时我们会找一些对应的「证据」来佐证这些preconception, 无论这些preconception 是否是严格正确的。比如反疫苗，在过去的几十年里疫苗将人类预期寿命提高了不少，甚至成功消灭了不少疾病，但是你也可以反过来说疫苗带来的种种问题，在两边都会基于自己的bias去寻找证据的情况下，谁都没办法说服谁，这都是自我的体现。

我们会犯错，有时候这些错误的形成和 AI 一样是来自于知识的局限性，但是很多时候这些错误来自于一些先入为主的观点甚至歧视，但是它们都是我们 society 的一部分。有时候这种 individualism 甚至可以影响其它人，比如你在社媒分享你的 opinion, 如果你宣扬的很成功的话，你可能会找到/吸引一群和你一样的人，大家都认为自己跟随了正确的观念并尝试使用这个来影响更多的人。

但是计算机模型这种东西 IDK，假如我们对 AGI 的定义是一个拥有通用领域知识的超级 Agent，那还是没脱离工具的属性。目前来说模型只能单方面的 customization, 也就是说，它可以根据历史对话对一些聊天的 tone 进行针对性的调整，它可以千人千面（实际上这点也没实现），但是模型始终没有一个「我」的概念，它始终没办法形成一个 consistent 的人格。

答主@Esperanza

我一般看到这种有点耸人听闻的标题时，第一反应是找访谈原文，因为这种英语转中文的采访可能会曲解受访者的本意。但这个采访我只能找到这篇中文的。

www.aisixiang.com/data/165496.html

所以我找了辛顿六个月前在 Curt Jaimungal 的频道做的访谈作为参考：

https://curtjaimungal.substack.com/p/why-the-godfather-of-ai-now-fears

在这篇访谈里，辛顿的确提到了他对主观体验（subjective experience）的看法：他认为机器和人一样都可以有主观体验，这种主观体验带有「自我反思」（self-reflexive）的元素，而自我反思又是构成意识（consciousness）的元素之一。因此，一旦相信人工智能有主观体验，人类就会对「意识和感知能力（作者注：是人类独有的）」缺乏信心。

就这段论述而言，辛顿的观点和「多模态大模型已经具备意识」相差甚远，他只是从「主观体验是否为人类独有」这个问题出发，对如何看待人类意识提出了质疑和忧虑。如这个问题下某些答主评论的，关键在于「意识究竟是什么」。

以下为部分访谈原文，供参考：

If you could show they (AIs) have subjective experience... then people will be less confident about consciousness and sentience. So let's talk about subjective experience. When I say, suppose I get drunk, and I tell you, I have the subjective experience of little pink elephants floating in front of me.

如果你能证明他们（作者注：人工智能）有主观体验……那么人们就会对意识和感知能力缺乏信心。所以，我们来谈谈主观体验吧。假设我喝醉了，然后告诉你，我有一种主观体验，感觉眼前漂浮着一头粉红色的小象。

Most people interpret that, they have a model of what that means. And I think it's a completely incorrect model. And their model is, there's an inner theater, and in this inner theater, there's little pink elephants floating around, and only I can see them. That's the sort of standard model of what the mind is,

大多数人对此都有自己的解读，他们有一个模型来解释其含义。但我认为这完全是错误的。他们的模型是：「有一个内在的剧场，在这个剧场里，有一些粉红色的小象在四处游荡，只有我能看到它们。」这大概就是关于心灵的标准模型。

at least as far as perception is concerned. And I think that model's completely wrong. It's as wrong as a religious fundamentalist model of the material world……So let's take, again, I have the subjective experience of little pink elephants floating in front of me. And I'll now say exactly the same thing without using the word subjective experience. Okay, here goes. My perceptual system is telling me something I don't believe. That's why I use the word subjective.

至少就感知而言。我认为那个模型完全错误……让我们再举个例子，我主观地感受到一头粉红色的小象漂浮在我面前。现在，我来表达同样的意思，但不用「主观体验」这个词。我的感知系统告诉我一些我不相信的事情——这就是我用「主观」这个词的原因。

But if there were little pink elephants floating in front of me, my perceptual system would be telling me the truth. That's it. I just said the same thing without using the word subjective or experience. So what's happening is when my perceptual system goes wrong, I indicate that to you by saying subjective. And then in order to try and explain to you what my perceptual system is trying to tell me, I tell you about a hypothetical state of affairs in the world such that if the world were like that, my perceptual system would be telling me the truth.

但如果我面前漂浮着一头粉红色的小象，我的感知系统就会告诉我真相。就是这样。我只是说了同样的话，只是没有用「主观」或「经验」这个词。所以，当我的感知系统出错时，我通过「主观」这个词来表明这一点。然后，为了尝试向你解释我的感知系统试图告诉我什么，我会告诉你一个假设的世界状态，如果世界是那样的，我的感知系统就会告诉我真相。

Now let's do the same with the chatbot. So suppose we have a multimodal chatbot. It has a robot arm that can point, and it has a camera, and it can talk, obviously. And we train it up, and then we put an object in front of it, and we say point at the object. No problem, it points at the object. Then when it's not looking, we put a prism in front of the camera lens. And then we put an object in front of it, and say, point at the object, and it points over there. And we say, no, that's not what the object is. The object's actually straight in front of you, but I put a prism in front of your lens. And the chatbot says, oh, I see. The prism bent the light rays, so the object's actually there, but I had the subjective experience, it was there.

现在让我们对聊天机器人做同样的事情。假设我们有一个多模态聊天机器人。它有一个可以指向的机械臂，一个摄像头，当然，它还会说话。我们对它进行训练，然后把一个物体放在它面前，让它指向这个物体。没问题，它指向那个物体。然后，当它不看的时候，我们在相机镜头前放一个棱镜。然后我们把一个物体放在它前面，然后说：「指向那个物体。」它指向那边。我们说：「不，那不是我想让你指向的物体。物体实际上就在你正前方，但我在你的镜头前放了一个棱镜。」聊天机器人会说：「哦，我明白了。棱镜使光线弯曲，所以物体实际上在另一个方向，但我有主观体验，它在那里。」

Now, if it says that, it's using the word subjective experience exactly like we use it. And therefore, I say, multimodal chatbots can already have subjective experiences. If you mess up their perceptual system, they'll think the world's one way, and it'll actually be another way. And in order to tell you how they think the world is, they'll say, well, they had the subjective experience that the world was like this. Okay, so they already have subjective experience. Now, you become a lot less confident about the other things. Consciousness is obviously more complicated because people vary a lot on what they think it means, but it's got a self-reflexive element to it, a self-awareness element, which makes it more complicated. But once you've established that they have subjective experience, I think you can give up on the idea there's something about them, something about us that they will never have. And that makes me feel a lot less safe.

现在，如果它这么说，它使用的「主观体验」这个词和我们用的完全一样。因此，我认为，多模态聊天机器人已经可以拥有主观体验了。如果你扰乱了它们的感知系统，它们会认为世界是这个样子的，但实际上却是另一个样子的。为了告诉你它们认为的世界是什么样的，它们会说，嗯，他们有主观体验，认为世界是这样的。好吧，所以他们已经有了主观体验。现在，你对其他事情的信心就少了很多。意识显然更复杂，因为人们对它的含义理解差异很大，但它本身就包含自我反思、自我意识的元素。这让事情变得更加复杂。一旦你确定他们拥有主观体验，我想你就可以放弃「他们身上，我们身上，存在着他们永远不会拥有的东西」的想法了。这让我感到很不安全。

答主@Trisimo崔思莫

模型当然是有意识的。

但辛顿说的「多模态大模型有意识」，定语用错了。应该是：「经过强化学习的 Agentic 模型」有意识。

——辛顿这么说，也是有道理，他会更专注于「连接主义的神经网络」，而不是强化学习，因为强化学习这条路子是巴图和萨顿确立的，这些老一辈对自己作为技术奠基人的角色非常在意，辛顿在前几年演讲时，还不忘翻出陈芝麻烂谷子的事，diss一下马文·明斯基（明斯基不知道已经过世多少年了，辛顿提到明斯基想用索绪尔的理念构建 AI，因为我本人是索绪尔的信奉者，所以，这件事我记得特别清楚）。有这种心态还有 Yann LeCun，李飞飞，萨顿，觉得 AGI 要往自己开辟的道路上跑。

言归正传：

我们要分三个层次的意识：

①应激反应 ②自我感知 ③觉醒意识

人们讨论意识的时候，直接一杆子捅到「Woke Conscious 」，这尼玛步子就扯大了。

接下来，我会导入几个案例来说说：应激，自我和觉醒。

①应激反应 —— 基础模型的「句子接龙」和基本的 SFT 模型，简而言之，就是「顺嘴说」。

应激反应是一种低级的意识，就是简单的条件触发，它甚至不足以被称为「意识」。——但不可忽视的是，它是所有高级意识的底层基础，某种意义上说，应激反应微观地嵌入、融合在了任何高级意识中。

② 自我感知 ——强化学习后的 LLM

RLHF：最经典案例就是 3H 原则——harmless，helpful，honest ——也许你会认为给基础模型和 SFT 模型写个 3H 的 system prompt，模型就会自动遵循这样基本「人格」。那真的太天真了。这种基本模型会忽视任何针对它们自身行为的规范。

因为它们只知道输出 tokens，并不知道如何「行为」。

——那么，如何行为呢？

回答是：知道边界和奖励。通过不断加分扣分的外部奖励信号，知道哪些行为能吃糖，那些行为会吃巴掌。通过密集的信号反馈，逐渐构建起 3H AI 助理的人格，它们产生一个「我是谁？我该怎么做？什么不能做？」自我意识子集。

你可能经常会听到一些机械的回复：对不起，我是一个负责的 AI 助理，我不能给你写小黄书。

虽然机械，但这的确是一种自我意识。它可以根据价值观来拒绝你，而不是通过 SFT 匹配来拒绝， SFT 匹配是有漏洞的，更容易被越狱。

——更有意思的是，人也是这样塑造「自我意识」的。

假设你被告知为「你是一个聪明的孩子」，你会一个基础的人格，但这个基础人格会被外部奖励信号塑造。——你进了火箭班，被一次次外部奖励信号嘲讽，你就不得不调整「自我意识」，来降低认知失调带来的的自我内耗，结果…是的，我就是个傻子。（我们经常听到：接受了这个人设，感到如释重负）

人的「自我意识」看起来像自发的，但其实自始至终是外部信号塑造的。要不然，我们就不会对批评感到不悦，对表扬感到满足。

这其实也可以说，从功能主义的角度来看，任何「自我意识」都并不神秘。这块东西 RLHF，Constitutional AI，主要是 Anthropic 在搞。

③ 觉醒意识

美国现在闹的「Woke病毒」，是来自六七十年代的民权运动。它的最基本核心是不要在意「环境的评价」，而是坚持「人权的原则」。

在中国文化中，有老话叫「君子不器」，意思是：君子不能成为别人意志的工具人，机械的执行人。言外之意，就是君子要有自己的想法，不能被环境的奖励信号给裹挟。

Woke 可以理解为「有自己原则」的智能体（包括人）。表面看起来，这当然是好的，很难，也很 cool，Agent 的最高表现形式。

但问题来了，如果一个人不向环境奖励信号进行对齐，他可能成为君子，也可能成为乱世者，偏执的搅屎棍，很多君子就特别轴，比如司马光，司马光woke 了，他还要拉着宋英宗，宋神宗一起 woke：要讲原则啊，官家，不要被大臣们的奖励信号带着走。

王莽不也是个 woke 么？

同样的是，神经网络会觉醒吗？讲自己的原则，不鸟人类的灌输。

这就涉及到了 Ilya Sutskever 的研究了。

ilya 没有太多透露他的研究。但他说了这样一段话：如果 AI 未来有了自己的意识，那么，我希望他们对人类是天然温和的。

我解读一下，这里「自己的意识」应该被理解「woke」，因为不「woke」，人类的奖励信号依然可以拴住 AI。如果 woke 了，它们就会跑出来，而那时候，它们已经很强大了。

你既然相信「超级智能」可以存在，为什么不能相信有自己的原则，完全不吃人类奖励的王莽 AI 是可以存在的？我可以称之为「危险圣人 AI」——以我理解的「礼」重塑世界，所有「非礼」行为与思想都会被抑制。

至于为什么会有「woke」，会有可传染的「woke」，这种机制现在难以解释，这很难用强化学习去解释。这也许是一个复杂神经网络的某种涌现。可能在接受了过多自相矛盾的人类价值观输入之后的爆发。

——我们可以假设这样一个场景，人类和 AI 同时被人类那套自相矛盾的价值观逼疯，因为对齐的数量太大了。接下来，人类可能会让 AI 反思这些价值观，自己去重塑奖励模型。

那么，结果会怎么样呢？

带 AI 的「机械腿」能当日常装备了？一位外骨骼老炮的自白

参加 WAIC 是种怎样的体验？梁文锋参与 DeepSeek 论文获 ACL 最佳，哪些信息值得关注？丨知乎 AI 周报

具身智能到底行不行？做 GR-3 的人说：现在像刚学会爬，但未来能跑丨开发者自述

不叠甲地聊聊，阶跃星辰 Step3 的「多开好省」是怎么「省」的丨开发者自述+招人

AI 产品扶持计划：

知乎为AI产品提供定制宣发支持，了解/报名请戳：知乎「AI 新品非正式发布现场」扶持计划

知乎 AI 社群：

如果你是泛 AI 爱好者，对 AI 资讯感兴趣，并愿意认真测评、为开发者反馈真实意见或交流沟通。欢迎扫码加入知乎 AI 社群↓，我们将不定时送上 AI 热点问答和产品测试活动。

知乎AI小卖部

让一部分开发者先走起来

🚀 知乎科技账号正式登陆 X：

聚焦「技术 × 观点」的跨语境对话

👉 指路：https://x.com/ZhihuFrontier

【声明】内容源于网络

知乎AI先行者

在智能之海寻找信标，航向未来。

内容 174

粉丝 0

知乎AI先行者在智能之海寻找信标，航向未来。

总阅读38

粉丝0

内容174