点击“计算机视觉life”,选择“星标”
机器人AI干货第一时间送达
本文首发在小六的机器人AI圈
大家好,我是小六,今天给大家聊一聊具身智能中的模仿学习和强化学习。 很多地方都能看到这两个学习策略,到底有什么不一样,今天给大家讲一讲,其实这两种都是让具身智能去学本事的一种路径。
我举个例子,想象一下,你要去教一个机器人学新的技能,比如说你要教他炒菜。
那么有两种思路:
一种是让他照着你,学着你做,或者学着这个菜单去做,这叫模仿学习。
另外一种就是,你只要告诉他这个目标,比如说不要炒糊了,那个多入味儿,那么让他自己去摸索。这就是强化学习。
这两种方法没有绝对的好坏,只是适用于不同的情况。那么下面具体来说一说模仿学习的策略。简单来说,就是直接很高效的这种抄作业的方式。那么他的思路也很直接。 就是既然现成有成功的经验,那么我们也叫专家数据,那直接模仿就好了。这就像新手司机跟着驾校教练学车一样,教练怎么开你就怎么开。
那么举一个例子,比如说斯坦福的aloha机器人系统。它就是通过观察人类远程操控的示范。快速学会一套复杂的操作流程。
比如给电路板去焊线什么的。这里面也有很多坑,因为模仿学习有点像死记硬背。如果机器人执行的时候出现一点偏差。进入了专家系统里面没有的状态。 他就不知道怎么办了。那么这个错误就像滚雪球一样,越滚越大。这就出现所谓的复合误差问题。好比驾校里面只教了你在平路上开,但是突然你遇到一个陡坡,那个学员就不知道怎么处理了。
强化学习;它是目标导向的,这种自主探索,它更侧重于让智能体自己跟环境互动。通过尝试不同的动作,并根据这种结果,比如说奖励还是惩罚,来学习什么该做,什么不该做。他的目标就是能够获得长期累计奖励最大化的这个策略。
再举个例子,比如说你要训练一个AI玩俄罗斯方块,你不用告诉他每一步具体怎么做,你只需要设定一个规则。消除一行多少分的规则。那么AI会通过无数局的游戏自己去摸索。为了得到最高分,他是应该优先消除多行还是应该迭代堆叠,等待一个长条来一次性清空多好。
那么这种方法虽然潜力巨大。但是现实中成本很高。让一个机器人实体反复试错来学习走路。他可能在学会之前已经散架了。因此现在强化学习大部分都在仿真环境中进行。这就带来了如何让虚拟世界学到。 技能顺利的应用到真实世界的挑战,也就是仿真到现实的迁移问题。那么模法学习和强化学习到底哪个好呢?该怎么用呢?
其实他们俩不是一个水火不容的,是经常组队出现,取长补短。一种非常有效的策略就是模仿学习先打基础,强化学习做优化。 起步阶段。我们先用模仿学习让智能体去快速的掌握基本功。达到这种及格的水平。然后这给强化学习提供了一个高水平的起点。避免了从零开始漫无目的的探索。那么优化阶段再切换到强化学习。 让智能体在已有的基础上继续探索和优化。尝试发现更优甚至超越专家的这种策略。
就好比你教一个小孩子下棋。刚开始的时候,你可以用模仿学习的方式教他一点,教他一些经典的开局定式和杀招。 这就是模仿学习,那么等他熟练之后,你可以让他去跟其他人去对弈。这就是强化学习,在实战中灵活运用这些技巧,自己创造出新的战术来应对不同的局面。
那么总结一下,我们根据实际的特点来做决定。 如果有大量高质量的专家示范的数据,那么且任务相对固定的话就可以优先考虑模仿学习可以快速出效果。那如果你的任务环境复杂多变,需要非常强的适应性,或者希望智能体能够青出于蓝,那么强化学习更合适。 那么最常见的就是混合策略。先用模仿学习打基础,再用强化学习做突破。关于两者的对比,我也做了一个表格大家可以看一下
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
推荐阅读
详细介绍!超远距EDU-SCAN三维激光雷达扫描仪,为开放生态而生!
三维空间扫描仪化身机器人感知定位利器!
用于机器人自主定位导航、实景三维重建!
扫描仪+机器人,实时定位建图超简单!
隧道低纹理大摆锤,暴力SLAM!
暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作

