大数跨境
0
0

具身智能中的模仿学习和强化学习,有何不同?

具身智能中的模仿学习和强化学习,有何不同? 计算机视觉life
2025-12-02
6
导读:小白也能看懂

点击“计算机视觉life”,选择“星标”

机器人AI干货第一时间送达

本文首发在小六的机器人AI圈

大家好,我是小六,今天给大家聊一聊具身智能中的模仿学习强化学习。 很多地方都能看到这两个学习策略,到底有什么不一样,今天给大家讲一讲,其实这两种都是让具身智能去学本事的一种路径。

我举个例子,想象一下,你要去教一个机器人学新的技能,比如说你要教他炒菜。

那么有两种思路

  • 一种是让他照着你,学着你做,或者学着这个菜单去做,这叫模仿学习。

  • 另外一种就是,你只要告诉他这个目标,比如说不要炒糊了,那个多入味儿,那么让他自己去摸索。这就是强化学习。

这两种方法没有绝对的好坏,只是适用于不同的情况。那么下面具体来说一说模仿学习的策略。简单来说,就是直接很高效的这种抄作业的方式。那么他的思路也很直接。 就是既然现成有成功的经验,那么我们也叫专家数据,那直接模仿就好了。这就像新手司机跟着驾校教练学车一样,教练怎么开你就怎么开。动图

那么举一个例子,比如说斯坦福的aloha机器人系统。它就是通过观察人类远程操控的示范。快速学会一套复杂的操作流程。

比如给电路板去焊线什么的。这里面也有很多坑,因为模仿学习有点像死记硬背。如果机器人执行的时候出现一点偏差。进入了专家系统里面没有的状态。 他就不知道怎么办了。那么这个错误就像滚雪球一样,越滚越大。这就出现所谓的复合误差问题。好比驾校里面只教了你在平路上开,但是突然你遇到一个陡坡,那个学员就不知道怎么处理了。

强化学习;它是目标导向的,这种自主探索,它更侧重于让智能体自己跟环境互动。通过尝试不同的动作,并根据这种结果,比如说奖励还是惩罚,来学习什么该做,什么不该做。他的目标就是能够获得长期累计奖励最大化的这个策略。 

再举个例子,比如说你要训练一个AI玩俄罗斯方块,你不用告诉他每一步具体怎么做,你只需要设定一个规则。消除一行多少分的规则。那么AI会通过无数局的游戏自己去摸索。为了得到最高分,他是应该优先消除多行还是应该迭代堆叠,等待一个长条来一次性清空多好。 

那么这种方法虽然潜力巨大。但是现实中成本很高。让一个机器人实体反复试错来学习走路。他可能在学会之前已经散架了。因此现在强化学习大部分都在仿真环境中进行。这就带来了如何让虚拟世界学到。 技能顺利的应用到真实世界的挑战,也就是仿真到现实的迁移问题。那么模法学习和强化学习到底哪个好呢?该怎么用呢?


其实他们俩不是一个水火不容的,是经常组队出现,取长补短。一种非常有效的策略就是模仿学习先打基础,强化学习做优化。 起步阶段。我们先用模仿学习让智能体去快速的掌握基本功。达到这种及格的水平。然后这给强化学习提供了一个高水平的起点。避免了从零开始漫无目的的探索。那么优化阶段再切换到强化学习。 让智能体在已有的基础上继续探索和优化。尝试发现更优甚至超越专家的这种策略。

就好比你教一个小孩子下棋。刚开始的时候,你可以用模仿学习的方式教他一点,教他一些经典的开局定式和杀招。 这就是模仿学习,那么等他熟练之后,你可以让他去跟其他人去对弈。这就是强化学习,在实战中灵活运用这些技巧,自己创造出新的战术来应对不同的局面。

那么总结一下,我们根据实际的特点来做决定。 如果有大量高质量的专家示范的数据,那么且任务相对固定的话就可以优先考虑模仿学习可以快速出效果。那如果你的任务环境复杂多变,需要非常强的适应性,或者希望智能体能够青出于蓝,那么强化学习更合适。 那么最常见的就是混合策略。先用模仿学习打基础,再用强化学习做突破。关于两者的对比,我也做了一个表格大家可以看一下

特点
模仿学习(Imitation Learning)
强化学习(Reinforcement Learning)
核心思想
"照葫芦画瓢":通过观察专家的示范来学习
"实践出真知":通过不断试错,根据环境反馈的奖励信号来学习最优策略
学习方式
像学徒,直接模仿师傅的一招一式
像自己摸索,哪种做法得分高就继续用
优点
起步快,能快速从专家那里学到现成经验
自主探索性强,有可能发现超越专家的新方法,适应变化的能力更强
挑战
水平很难超过师傅;如果遇到师傅没教过的情况容易懵
自己摸索效率低,可能需要海量尝试;设计合理的"奖励目标"本身就很复杂
示例
教孩子写字,你先示范一笔一划,他跟着描
教孩子骑车,你扶他上路,告诉他"保持平衡别摔倒",他自己找感觉

推荐阅读

实习/校招/社招:机器人硬件/研发/导航/软件工程师
小六的机器人AI圈
为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步,步步领先!已沉淀6年,星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等.


图片
     

详细介绍!超远距EDU-SCAN三维激光雷达扫描仪,为开放生态而生!

重磅发布!解锁百米高空无人机测绘!

重磅发布!2分钟重建百米高楼!

重磅发布!助力机器狗SLAM、重建三维世界!

SLAM挑战!EDU-SCAN清晰还原室内超大电子屏

SLAM挑战 ! 9分钟重建万

平地下停车场

这款科研神器丝滑复现最强SLAM:Fast-LIVO2!

三维激光扫描仪全国线下产品试用!

车载扫街,效果实测!

激光雷达+视觉的3D高斯泼溅,相比纯视觉的方案有什么优势?

            
三维空间扫描仪化身机器人感知定位利器!
用于机器人自主定位导航、实景三维重建!
               
扫描仪+机器人,实时定位建图超简单!
隧道低纹理大摆锤,暴力SLAM!

暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作

基于MetaCam EDU的二次开发流程及说明

SLAM挑战:上下天桥绕一圈、定位建图准确完美回环无漂移

SLAM挑战:多楼层、720°旋转楼梯、狭窄玻璃白墙过道

三维空间扫描仪,轻松重建小树林

空间定位建图挑战:长走廊、白墙、玻璃、反光等,会成功吗

三维空间扫描仪,轻松重建小树林

如何高效率重建古建筑?

SLAM挑战:有光无光切换,自由穿梭小黑屋!

SLAM暴力测试:弱光暗光、长走廊、动态场景、天旋地转

如何快速让机器人具备SLAM能力?

扫描仪+转换底座应用介绍

3天爆改机器狗!

Image

Image

【声明】内容源于网络
0
0
计算机视觉life
聚焦计算机视觉、机器人SLAM、自动驾驶、AR领域核心技术。系统学习教程官网cvlife.net
内容 3940
粉丝 0
计算机视觉life 聚焦计算机视觉、机器人SLAM、自动驾驶、AR领域核心技术。系统学习教程官网cvlife.net
总阅读761
粉丝0
内容3.9k