大数跨境

从斯坦福大学机器人,聊聊“自动化”与“智能化”有什么区别

从斯坦福大学机器人,聊聊“自动化”与“智能化”有什么区别 消费AI进化体
2024-01-13
0
导读:最近,斯坦福大学的机器人引起了广泛关注。其实机器人早已有之,这次斯坦福的机器人引人注目的原因主要有两个:通用性、低成本。但这两个概念有很多认知误区。此时我正在飞往成都的飞机上,呆着也是呆着,掏出手机来

最近,斯坦福大学的机器人引起了广泛关注。其实机器人早已有之,这次斯坦福的机器人引人注目的原因主要有两个:通用性、低成本。但这两个概念有很多认知误区。此时我正在飞往成都的飞机上,呆着也是呆着,掏出手机来把这个话题写一写。

什么是通用机器人?顾名思义,就是什么都能干的机器人。我们目前所看到的大多数机器人,都不是通用机器人。比如,炒菜机器人就只能炒菜,不能送餐,而送餐机器人则只能送餐,不能炒菜。因为炒菜机器人只有一个能加热的炒锅,而送餐机器人只有一组能走的轮子。

而通用机器人,则有一双可以拿取东西的手,和可以应对各种地面的脚(或类似脚的东西)。这就意味着,它们可以干的事情就不再局限于某一个领域。人类相比其他动物之所以高级,一个重要特征就是我们有一双灵活的双手,可以处理更复杂精细的劳动,而不是像大多数动物一样只是一个长满肉垫的爪子。

但只要是长成这样的机器人就都是机器人了吗?当然不是。这就好像,大猩猩也有一双灵活的手,但它却无法站在厨房里烹饪菜肴。具有了灵活的双手,还要有一个足够发达的大脑才能充分发挥它的能力,否则你可能只会用它来剥香蕉了。

这就涉及到了另一对概念的区分,即“自动化”还是“智能化”,英文就是Auto还是AI。这是非常容易混淆的一对概念。

如果某一个设备,只能按照预设的程序一步步完成指令的每一步动作,那它就是自动化的。如果某一个设备,可以通过自己的学习来学会新的动作,那它就是智能化的。

如果只是自动化的,那就意味着,预设指令范围内的动作,设备可以做。但如果某个动作不在预设指令范围内,那它就不会做了。用斯坦福的机器人举例,你看到它的双手能从桌面上拿起菜刀和黄瓜,把黄瓜切成片。如果它只是自动化的,那么给它预设的指令就是,精确告诉它菜刀和黄瓜的位置,让它在规定的时间内去到这个位置,拿起菜刀和黄瓜。但如果你没有把菜刀和黄瓜放在这个预设位置上,甚至仅仅是刀柄的朝向不对,机器人就会告诉你“找不到”。这时候,机器人就不智能了,看上去更像个智障。所以,当下很多使用自动化脚本来驱动的机器人把自己称为“人工智能”只是偷换概念而已。

按照这个逻辑,如果斯坦福的机器人只是自动化的,那么拍摄的视频就像演一场戏,因为所有的动作都是预设的,所有的物品都是“道具”。为了演好这场戏,需要给机器人编写一个庞大的自动化程序,告诉它每一个步骤该做什么。拍戏时这叫做“剧本”,自动化程序就叫做“脚本”。然后它就会像多米诺骨牌一样一步一步完成,但如果中间出现任何一个异常(例如原本说好的某个道具没有出现),那它也会像一个智障一样傻傻的不知所措。

但很明显,斯坦福的机器人并不是这样,看上去它很聪明的自己找到了该用的东西。他是如何做到的呢?至少,他不像是按照脚本傻傻的执行。因为他不是自动化的,而是智能化的,也就是AI。

智能化的特征是设备可以自己学会新知识,也就是所谓的“机器学习”。ChatGPT之所以牛逼,其背后就是庞大的“神经网络”系统,这个系统的目的就是为了完成更复杂的学习,而学习的过程就被称为“训练”。

ChatGPT的训练过程简而言之就像是填字游戏,也就是将所有文字的所有组合都列举出来,根据概率来安排问题的答案。例如,当ChatGPT说出“神”这个字是,后面有可能是“神话”也有可能是“神经”,结合用户问的问题,发现用户问的并非是宗教问题,那么排除“神话”,选用“神经”。“神经”后面的文字,可以是“神经病”,也可以是“神经网络”,结合用户问题,发现用户问的是一个关于人工智能的问题,那么排除“神经病”,选用“神经网络”。

实际情况当然比这个要复杂得多,但性质大差不差,ChatGPT就是这样思考的。而在“训练”它的时候,就是让它不断的随机选择,如果选对了,就给它一个奖励的信号,如果选错了,就给它一个惩罚的信号。

训练神经网络就像训练小狗

没错,就像训练你家小狗一样。只不过,你家小狗只能记住一组指令和动作,例如你说“坐下”它可能就乖乖坐下了,你说“握手”它可能就会伸爪。但如果你对它说“过来坐下,然后握手”它就不会了。但ChatGPT训练的目的就是要实现这样的“链式”反馈。就像上面的例子,从“神”到“神经”再到“神经网络”,所以你看到的ChatGPT回答问题时,总是一个字一个字往外蹦的。这种链式思考很像人脑神经元之间的突触连接,所以称其为“神经网络”。

一个“神经网络”,掌握的信息越多,它能识别的指令和作出的反馈就越智能。为了让它掌握更多信息,就需要不断训练,训练好的神经网络就叫做人工智能的“模型”。当一个“模型”有超级海量的信息时,就是现在经常被提到的“大模型”了。

这和斯坦福的机器人有什么关系呢?其实它们是同一个原理,只不过ChatGPT是说话,斯坦福大学机器人是做动作,它也一样需要“训练”。例如,它举起菜刀切黄瓜,如果切到手,就给它一个惩罚信号,如果切完时恰好把刀放下,就给它一个奖励信号。于是,机器人就自己知道了何时该把刀放下,而不是一连串自动化脚本告诉他什么时候把刀放下。

类似的例子就是汽车自动驾驶。道路上的路况是复杂的,不可能用固定的自动化脚本来控制自动驾驶,只能让汽车自己随机应变,这也必然需要大模型的支持。训练这个模型时,会在虚拟世界中模拟出一个道路,类似我们玩的赛车游戏,然后让自动驾驶程序来驾驶一辆车跑在这条虚拟道路上,如果它撞上了,就给出惩罚信号,如果它成功躲开了,就给出奖励信号。如此经过反反复复的训练,它就会“开车”了。

自动驾驶的背后也是人工智能大模型

无论是斯坦福大学的机器人,还是ChatGPT,它们在工作时都看似在“思考”,难道它们自己有思考能力,有意识?其实那基本是不可能的,ChatGPT看似非常像一个人一样和你对话,但它的思考逻辑永远是填字游戏。当它对你说“我爱你“的时候,并不会迸发出炙热的爱情,而是因为在当前语境下“我爱”这两个字后面“你”这个字出现的几率最大,所以它才这样说。

不信你可以试试用两台电脑同时打开ChatGPT,让它们互相对话,例如你问第一个ChatGPT“好久不见呀”它回答“是呀,我们好久没见了”。然后你问另一个ChatGPT,“某人和我说,我们好久没见了,我该如何回答”,然后把它的答案再发给第一个ChatGPT。经过很多个回合后,说不定它们真的就谈起恋爱了,但这种恋爱与人类情感完全不是一回事。

尽管机器人不会觉醒意识,但这样的智能化对于工作来说已经足够了,再配上灵活的双手,机器人也就实现了“通用化”。也就是说,它不但能自己学会新动作,能应付未知场景,能随机应变,还能完成手部精细动作,做个厨房小能手是足够了。

比较吸引眼球的是,视频上说斯坦福的这个机器人的成本只需要22万美元。虽然22万美元不便宜,但对于这么智能的机器人来说,就不算贵了。然而,如果回到“自动化”和“智能化”的讨论,对于一个自动化机器人来说,它的成本基本就是它的零配件成本,包括存放智能化脚本的存储器和执行脚本的芯片,都算是零配件。然而,对于依靠大模型的人工智能设备来说,设备本身的零配件成本只是其中一部分,更大的成本是“大模型”的成本。

ChatGPT背后的神经网络机房

还是用ChatGPT来举例,ChatGPT只是网页终端,没有机器人的硬件设备,难道它的成本是0吗?ChatGPT所依赖的神经网络有上百万个计算核心,每个计算核心采用英伟达的计算显卡,每一块就要十几万美元,你算算承载它神经网络的这套东西值多少钱。而ChatGPT每被训练一次,这套东西花的电费就要几百万美元。

斯坦福大学的机器人和汽车自动驾驶,都是这个道理,因为他们都是依赖大模型的人工智能产品。他们表面上看是个简单的机器人,而背后则是天文数字般的大模型投入。自动化机器人可以脱离网络,单机运行,因为自动化脚本已经写在了芯片里,所以自动化机器人只要衡量它的零配件制造成本即可。而人工智能产品,大模型是不可能写在单机的芯片中的,就好比你的电脑虽然能运行ChatGPT,但存下ChatGPT掌握的一切是不可能的。所以,单纯看一个智能化设备的零配件制造成本是没有意义的,真正的成本是在你看不见的地方。

也正是因此,真正的智能化设备如果想要正式走入消费领域,首先要有“量”。如果产品没有非常海量的需求,大模型的成本就无法摊薄在每一份产品上,他就只能是实验室的科研产品。

OpenAI公司会向每个使用ChatGPT的用户收取百十来块钱的费用,看似很便宜,但全球十亿人使用ChatGPT,这笔收入就不小了,ChatGPT背后的大模型高成本投入也就被摊薄在了每一个用户身上。

我相信斯坦福大学的机器人在智能化方面已经“遥遥领先”,然而走入消费领域所需要迈过的一个重要门槛,就是如何用“量”来摊薄每一台机器人的模型成本。但单单零配件成本就要22万,这本身就决定了只有少数买家能买得起,也就限制了产品的“量”。如果这个难题不解决,通用机器人始终都是一个“看上去很美”,却无法走出实验室的云中仙子了。


 

【声明】内容源于网络
0
0
消费AI进化体
专注AI数智化赋能大消费餐饮,提供行业分析报告、咨询培训,峰会展会,选品经销、供应链对接、会员服务等AI大消费餐饮产业解决方案
内容 1053
粉丝 0
消费AI进化体 专注AI数智化赋能大消费餐饮,提供行业分析报告、咨询培训,峰会展会,选品经销、供应链对接、会员服务等AI大消费餐饮产业解决方案
总阅读2
粉丝0
内容1.1k