从斯坦福大学机器人，聊聊“自动化”与“智能化”有什么区别- 大数跨境

消费AI进化体

2024-01-13

导读：最近，斯坦福大学的机器人引起了广泛关注。其实机器人早已有之，这次斯坦福的机器人引人注目的原因主要有两个：通用性、低成本。但这两个概念有很多认知误区。此时我正在飞往成都的飞机上，呆着也是呆着，掏出手机来

最近，斯坦福大学的机器人引起了广泛关注。其实机器人早已有之，这次斯坦福的机器人引人注目的原因主要有两个：通用性、低成本。但这两个概念有很多认知误区。此时我正在飞往成都的飞机上，呆着也是呆着，掏出手机来把这个话题写一写。

什么是通用机器人？顾名思义，就是什么都能干的机器人。我们目前所看到的大多数机器人，都不是通用机器人。比如，炒菜机器人就只能炒菜，不能送餐，而送餐机器人则只能送餐，不能炒菜。因为炒菜机器人只有一个能加热的炒锅，而送餐机器人只有一组能走的轮子。

而通用机器人，则有一双可以拿取东西的手，和可以应对各种地面的脚（或类似脚的东西）。这就意味着，它们可以干的事情就不再局限于某一个领域。人类相比其他动物之所以高级，一个重要特征就是我们有一双灵活的双手，可以处理更复杂精细的劳动，而不是像大多数动物一样只是一个长满肉垫的爪子。

但只要是长成这样的机器人就都是机器人了吗？当然不是。这就好像，大猩猩也有一双灵活的手，但它却无法站在厨房里烹饪菜肴。具有了灵活的双手，还要有一个足够发达的大脑才能充分发挥它的能力，否则你可能只会用它来剥香蕉了。

这就涉及到了另一对概念的区分，即“自动化”还是“智能化”，英文就是Auto还是AI。这是非常容易混淆的一对概念。

如果某一个设备，只能按照预设的程序一步步完成指令的每一步动作，那它就是自动化的。如果某一个设备，可以通过自己的学习来学会新的动作，那它就是智能化的。

如果只是自动化的，那就意味着，预设指令范围内的动作，设备可以做。但如果某个动作不在预设指令范围内，那它就不会做了。用斯坦福的机器人举例，你看到它的双手能从桌面上拿起菜刀和黄瓜，把黄瓜切成片。如果它只是自动化的，那么给它预设的指令就是，精确告诉它菜刀和黄瓜的位置，让它在规定的时间内去到这个位置，拿起菜刀和黄瓜。但如果你没有把菜刀和黄瓜放在这个预设位置上，甚至仅仅是刀柄的朝向不对，机器人就会告诉你“找不到”。这时候，机器人就不智能了，看上去更像个智障。所以，当下很多使用自动化脚本来驱动的机器人把自己称为“人工智能”只是偷换概念而已。

按照这个逻辑，如果斯坦福的机器人只是自动化的，那么拍摄的视频就像演一场戏，因为所有的动作都是预设的，所有的物品都是“道具”。为了演好这场戏，需要给机器人编写一个庞大的自动化程序，告诉它每一个步骤该做什么。拍戏时这叫做“剧本”，自动化程序就叫做“脚本”。然后它就会像多米诺骨牌一样一步一步完成，但如果中间出现任何一个异常（例如原本说好的某个道具没有出现），那它也会像一个智障一样傻傻的不知所措。

但很明显，斯坦福的机器人并不是这样，看上去它很聪明的自己找到了该用的东西。他是如何做到的呢？至少，他不像是按照脚本傻傻的执行。因为他不是自动化的，而是智能化的，也就是AI。

智能化的特征是设备可以自己学会新知识，也就是所谓的“机器学习”。ChatGPT之所以牛逼，其背后就是庞大的“神经网络”系统，这个系统的目的就是为了完成更复杂的学习，而学习的过程就被称为“训练”。

ChatGPT的训练过程简而言之就像是填字游戏，也就是将所有文字的所有组合都列举出来，根据概率来安排问题的答案。例如，当ChatGPT说出“神”这个字是，后面有可能是“神话”也有可能是“神经”，结合用户问的问题，发现用户问的并非是宗教问题，那么排除“神话”，选用“神经”。“神经”后面的文字，可以是“神经病”，也可以是“神经网络”，结合用户问题，发现用户问的是一个关于人工智能的问题，那么排除“神经病”，选用“神经网络”。

实际情况当然比这个要复杂得多，但性质大差不差，ChatGPT就是这样思考的。而在“训练”它的时候，就是让它不断的随机选择，如果选对了，就给它一个奖励的信号，如果选错了，就给它一个惩罚的信号。

点击查看图片来源

训练神经网络就像训练小狗

没错，就像训练你家小狗一样。只不过，你家小狗只能记住一组指令和动作，例如你说“坐下”它可能就乖乖坐下了，你说“握手”它可能就会伸爪。但如果你对它说“过来坐下，然后握手”它就不会了。但ChatGPT训练的目的就是要实现这样的“链式”反馈。就像上面的例子，从“神”到“神经”再到“神经网络”，所以你看到的ChatGPT回答问题时，总是一个字一个字往外蹦的。这种链式思考很像人脑神经元之间的突触连接，所以称其为“神经网络”。

一个“神经网络”，掌握的信息越多，它能识别的指令和作出的反馈就越智能。为了让它掌握更多信息，就需要不断训练，训练好的神经网络就叫做人工智能的“模型”。当一个“模型”有超级海量的信息时，就是现在经常被提到的“大模型”了。

这和斯坦福的机器人有什么关系呢？其实它们是同一个原理，只不过ChatGPT是说话，斯坦福大学机器人是做动作，它也一样需要“训练”。例如，它举起菜刀切黄瓜，如果切到手，就给它一个惩罚信号，如果切完时恰好把刀放下，就给它一个奖励信号。于是，机器人就自己知道了何时该把刀放下，而不是一连串自动化脚本告诉他什么时候把刀放下。

类似的例子就是汽车自动驾驶。道路上的路况是复杂的，不可能用固定的自动化脚本来控制自动驾驶，只能让汽车自己随机应变，这也必然需要大模型的支持。训练这个模型时，会在虚拟世界中模拟出一个道路，类似我们玩的赛车游戏，然后让自动驾驶程序来驾驶一辆车跑在这条虚拟道路上，如果它撞上了，就给出惩罚信号，如果它成功躲开了，就给出奖励信号。如此经过反反复复的训练，它就会“开车”了。

点击查看图片来源

自动驾驶的背后也是人工智能大模型‍‍‍‍‍

无论是斯坦福大学的机器人，还是ChatGPT，它们在工作时都看似在“思考”，难道它们自己有思考能力，有意识？其实那基本是不可能的，ChatGPT看似非常像一个人一样和你对话，但它的思考逻辑永远是填字游戏。当它对你说“我爱你“的时候，并不会迸发出炙热的爱情，而是因为在当前语境下“我爱”这两个字后面“你”这个字出现的几率最大，所以它才这样说。

不信你可以试试用两台电脑同时打开ChatGPT，让它们互相对话，例如你问第一个ChatGPT“好久不见呀”它回答“是呀，我们好久没见了”。然后你问另一个ChatGPT，“某人和我说，我们好久没见了，我该如何回答”，然后把它的答案再发给第一个ChatGPT。经过很多个回合后，说不定它们真的就谈起恋爱了，但这种恋爱与人类情感完全不是一回事。

尽管机器人不会觉醒意识，但这样的智能化对于工作来说已经足够了，再配上灵活的双手，机器人也就实现了“通用化”。也就是说，它不但能自己学会新动作，能应付未知场景，能随机应变，还能完成手部精细动作，做个厨房小能手是足够了。

比较吸引眼球的是，视频上说斯坦福的这个机器人的成本只需要22万美元。虽然22万美元不便宜，但对于这么智能的机器人来说，就不算贵了。然而，如果回到“自动化”和“智能化”的讨论，对于一个自动化机器人来说，它的成本基本就是它的零配件成本，包括存放智能化脚本的存储器和执行脚本的芯片，都算是零配件。然而，对于依靠大模型的人工智能设备来说，设备本身的零配件成本只是其中一部分，更大的成本是“大模型”的成本。

点击查看图片来源

ChatGPT背后的神经网络机房

还是用ChatGPT来举例，ChatGPT只是网页终端，没有机器人的硬件设备，难道它的成本是0吗？ChatGPT所依赖的神经网络有上百万个计算核心，每个计算核心采用英伟达的计算显卡，每一块就要十几万美元，你算算承载它神经网络的这套东西值多少钱。而ChatGPT每被训练一次，这套东西花的电费就要几百万美元。

斯坦福大学的机器人和汽车自动驾驶，都是这个道理，因为他们都是依赖大模型的人工智能产品。他们表面上看是个简单的机器人，而背后则是天文数字般的大模型投入。自动化机器人可以脱离网络，单机运行，因为自动化脚本已经写在了芯片里，所以自动化机器人只要衡量它的零配件制造成本即可。而人工智能产品，大模型是不可能写在单机的芯片中的，就好比你的电脑虽然能运行ChatGPT，但存下ChatGPT掌握的一切是不可能的。所以，单纯看一个智能化设备的零配件制造成本是没有意义的，真正的成本是在你看不见的地方。

也正是因此，真正的智能化设备如果想要正式走入消费领域，首先要有“量”。如果产品没有非常海量的需求，大模型的成本就无法摊薄在每一份产品上，他就只能是实验室的科研产品。

OpenAI公司会向每个使用ChatGPT的用户收取百十来块钱的费用，看似很便宜，但全球十亿人使用ChatGPT，这笔收入就不小了，ChatGPT背后的大模型高成本投入也就被摊薄在了每一个用户身上。

点击查看图片来源

我相信斯坦福大学的机器人在智能化方面已经“遥遥领先”，然而走入消费领域所需要迈过的一个重要门槛，就是如何用“量”来摊薄每一台机器人的模型成本。但单单零配件成本就要22万，这本身就决定了只有少数买家能买得起，也就限制了产品的“量”。如果这个难题不解决，通用机器人始终都是一个“看上去很美”，却无法走出实验室的云中仙子了。

【声明】内容源于网络

消费AI进化体

专注AI数智化赋能大消费餐饮，提供行业分析报告、咨询培训，峰会展会，选品经销、供应链对接、会员服务等AI大消费餐饮产业解决方案

内容 1053

粉丝 0

消费AI进化体专注AI数智化赋能大消费餐饮，提供行业分析报告、咨询培训，峰会展会，选品经销、供应链对接、会员服务等AI大消费餐饮产业解决方案

总阅读2

粉丝0

内容1.1k