大数跨境
0
0

斯坦福Silvio/李飞飞组开源大型室内场景的模拟环境iGibson!15个可交互的真实房屋场景

斯坦福Silvio/李飞飞组开源大型室内场景的模拟环境iGibson!15个可交互的真实房屋场景 极市平台
2020-12-11
1
导读:本文介绍了李飞飞组关于开发了iGibson以用来训练和测试 interactive AI agents的工作,重点讲述了选择iGibson的原因以及iGibson​的功能和应用。
↑ 点击蓝字 关注极市平台

作者丨沈博魁@知乎
来源丨https://zhuanlan.zhihu.com/p/334643909
编辑丨极市平台

极市导读

 

模拟环境有极大的潜力来帮助研究人员解决机器人与AI的各种问题。 本文介绍了李飞飞组关于开发了iGibson以用来训练和测试 interactive(可交互的)AI agents的工作,重点讲述了选择iGibson的原因以及iGibson的功能和应用。>>感谢CV开发者一路以来对我们的支持,前往文末即可领取【极市】双12福利!

大家好,今天给大家介绍一下我们团队最新的工作:

iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes[1]

论文:https://arxiv.org/abs/2012.02924

现已开源:

网站:http://svl.stanford.edu/igibson/

代码:https://github.com/StanfordVL/iGibson/releases/tag/1.0.0

pip: https://pypi.org/project/gibson2/

doc:http://svl.stanford.edu/igibson/docs/

英文版blog:http://ai.stanford.edu/blog/igibson/

模拟环境如何能帮助到AI:

近来,面向AI和机器人的模拟环境得到了大力发展。仅仅几年前,机器人模拟环境还算是相对稀有的产物,但如今,各大学术会议(NeurIPS, CoRL, 甚至ICRA和IROS)几乎所有与AI机器人相关的论文都会用到模拟环境。那么,模拟环境是如何帮助到AI发展的呢?我们认为有如下几点原因:

  • 首先,在机器人领域,机器学习正逐渐发挥越来越大的作用,从而导致了数据需求的迅猛增长[2][3][4][5]。现实世界中,机器人只能“real-time”即时地产生数据,但海量的数据需求导致了从现实世界收集数据变得不现实。此外,机器学习需要收集的数据具备多样性,涉及到机器人的随机探索(random exploration)。如果在现实世界中让机器人随机活动,对机器人本身和周遭事物都是有挺大风险的。
  • 其次,在模拟环境变得越来越robust、逼真(视觉效果和物理引擎)、便捷的同时,算力的增长也导致了大部分机器都可以运行这些模拟环境。因此即便没有足够的资金来购置机器人,也可以通过模拟环境来从事机器人研究。模拟环境降低了机器人研究的准入门槛,让更多的人能推进该领域的发展。
  • 最后,随着关于各种机器人任务(例如导航、抓握、操作等)的论文数量不断增长,一个问题也日渐凸显:机器人领域需要可复现的基准(repeatable benchmark)。一个成熟的学科需要能简洁、可靠地复现实验结果,这样才能让不同的方法理论得到有效地对比。与现实世界相比,在模拟环境中实现可复现的基准要容易许多。

Why iGibson?

基于如上这些想法,我们开发了iGibson以用来训练和测试 interactive(可交互的)AI agents。那么,iGibson的特殊点在哪里呢?

首先我们先来区分一下这两个概念:

  1. Physics simulator (物理引擎): 物理引擎可以计算不同行为对现环境产生的物理影响。比如对一个物体施加一个力的后果,或者对于水流的模拟。随着计算机图形学的发展,现在有许多成熟的物理引擎。其中在机器人领域最为突出的是Bullet, PyBullet, MuJoCo, Nvidia PhysX and Flex, UnrealEngine, DART, Unity, and ODE等。
  2. Simulation environment (模拟环境): 模拟环境是一个整体框架,包含多个元件:物理引擎、渲染引擎、模型(包括场景、物体、机器人)等。我们可以用模拟环境模拟一个给定的任务,并用它来研究其解决方案。

那么,对一个研究人员而言,想解决什么任务或想研究什么课题就决定了用什么模拟环境,所谓工欲善其事,必先利其器。对iGibson而言,我们想研究的是:

  • 基于视觉信号,机器人如何在大型真实场景(如一整间公寓)中解决需要与环境互动的任务。

与现有模拟引擎的对比

已有的模拟引擎无法支持我们想研究的任务,即可以真实地在大型场景中进行物理互动。基于固定机械臂的模拟环境(如meta-world, RLBench, RoboSuite, DoorGym)并不包含真实的场景,从而不支持需要在室内导航的任务。为室内导航开发的模拟环境(包括我们之前开发的Gibson v1和Habitat)虽然可以解决视觉导航(visual navigation)和视觉语言导航(visual language navigation),但所包含的场景为三维重建的静止mesh模型。这意味着整个场景被封存在了重建时的位置,物品无法移动,机器人也不能与场景进行交互。

除此之外,例如Sapien, AI2Thor, ThreeDWorld (TDW)的一些模拟环境开始逐渐支持场景级的交互任务。Sapien侧重的问题是与铰接(articulated)物体的互动(如门、柜等)。TDW提供高质量的声音、形变、液体模拟(基于英伟达的Flex物理引擎)。但Sapien和TDW均不提供大型场景模型,从而不支持有关大型场景的任务研究。AI2Thor虽包含了可互动的场景,但互动为脚本化的符号交互,把现实中连续的互动和变化离散化了—当物体满足一个先觉条件,agent可以发出一个指令,从而这个物体进入其下个状态。例如,一个冰箱的敞开程度本应是连续值,但现在只有“开”和“关”两个状态。AI2Thor之后出现了RoboThor,但其只提供简单的传感器与一种机器人LoCoBot的模拟。受限于LoCoBot的技术限制与环境的离散化,机器人无法在模拟环境内学习并解决复杂的交互任务。

我们想要研究的任务是复杂的、long-horizon(长线)、 mobile manipulation(移动操作)任务,例如:收拾房间、找寻物品等。为了研究可以落地到现实世界的解决方案,模拟可真实交互的大型场景变得尤为重要。

iGibson的一些功能

iGibson最重要的功能是interactivity(可交互性),即构建可以真实交互的大型场景。为此,我们实现了如下关键功能:

  • 15个充分可交互、视觉上逼真、依据真实房屋构建的场景。其中所有物体可真实交互,包含了材料与动力学信息。
  • 可支持 CubiCasa5K[6]和3D-Front[7]的8000余个场景。

  • 真实的传感器信号模拟,包括:RGB (基于物理渲染引擎(Physics-based renderer)),深度图,1束或16束的激光雷达,语义/实例/材料分割图,光流,场景流等。
  • 内置运动规划算法,用于规划机器人底座的移动(在环境中导航)与机械臂的移动(抓取操纵物体)。

  • 内置域随机化功能,可随机替换visual textures (视觉图像)、材料与动力学信息、物体实例。由此,我们可以产生出无穷无尽的随机环境用于训练与测试。

  • 人机交互系统,可为机器人提供人工示范。

iGibson功能的一些应用:

我们在论文中展示了这些功能的用处,例如:

  • iGibson的光学雷达模拟可以帮助agent迁移到真实场景。



  • iGibson场景的充分可交互性可以帮助预训练机器人视觉,从而加速机器人学习并完成复杂的交互任务。

用iGibson解决更复杂的机器人任务

上述的iGibson功能能帮助人们更好的开发大型场景交互任务的解决方案。我们认为,其中一个很重要的问题是Interactive Navigation (交互导航)。在这个任务中,agents不仅需要导航,也需要改变其环境(如开门、移开障碍物)。这种需要改变环境的导航是在现实场景中最常见的。

为了在iGibson模拟环境中解决这个任务,我们开发了一套分层强化学习(hierarchical reinforcement learning)算法来决定agent的具体动作(当需要交互时用机械臂,当需要移动时用底座,也可同时利用机械臂和底座 [8])。

此外我们也提出了一个结合了运动规划算法的解决方案:算法来指定下个交互应该在何处发生,运动规划会基于此计算一条符合运动学且避障的轨迹 [9]。

但我们认为这只是iGibson潜力的冰山一角。目前我们实验室SVL(Stanford Vision and Learning Lab)有许多的项目在使用iGibson,来提出、攻克各种各样的交互任务。

总结:

我们认为模拟环境有极大的潜力来帮助研究人员解决机器人与AI的各种问题。

iGibson是一个完全开源的、面向大型场景交互任务的模拟环境。

我们真心希望iGibson能为机器人与AI的研究做出贡献。

在文章顶端有下载连接。如果有任何疑问,欢迎在github/评论区留言。

*关于Gibson: iGibson的名字来源于心理学、认知科学泰斗James J. Gibson [1904-1979]。Gibson生前提出了许多开创性的想法,包括关于知觉的新概念:

  1. 知觉是一个生态(ecological)的过程,即本体不应从其所处的生态环境中剥离出去;
  2. 知觉是一个动态(active)的过程,即知觉需要交互和主观能动性。

在当时,主流学说认为知觉是一个被动接受并处理的过程。Gibson的观点则相反,认为agents是在与环境的交互中主动寻求、而不是被动接受信息。Gibson也提出了“affordance”(承担特质)的概念:环境给予agent的行动可能,例如门提供“打开”的功能,椅子提供“支撑”的功能。我们同事是这样概括Gibson先生的research的:“ask not what’s inside your head, but what your head is inside of” (不要光注重于你脑中的世界,请着眼于你所处的世界)。


参考

  1. ^"iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes", by Bokui Shen*, Fei Xia*, Chengshu Li*, Roberto Martín-Martín*, Linxi Fan, Guanzhi Wang, Shyamal Buch, Claudia D'Arpino, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Li Fei-Fei, Silvio Savarese. (* equal contribution) http://svl.stanford.edu/igibson/

  2. ^Andrychowicz, OpenAI: Marcin, et al. "Learning dexterous in-hand manipulation." The International Journal of Robotics Research 39.1 (2020): 3-20.

  3. ^Rajeswaran, Aravind, et al. "Learning complex dexterous manipulation with deep reinforcement learning and demonstrations." Robotics: Science and Systems, 2017

  4. ^Peng, Xue Bin, et al. "Sfv: Reinforcement learning of physical skills from videos." ACM Transactions on Graphics (TOG) 37.6 (2018): 1-14.

  5. ^Zhu, Yuke, et al. "robosuite: A modular simulation framework and benchmark for robot learning." arXiv preprint arXiv:2009.12293 (2020).

  6. ^Kalervo, Ahti, et al. "Cubicasa5k: A dataset and an improved multi-task model for floorplan image analysis." Scandinavian Conference on Image Analysis. Springer, Cham, 2019.

  7. ^Fu, Huan, et al. "3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics." arXiv preprint arXiv:2011.09127 (2020).

  8. ^Li, Chengshu, et al. "Hrl4in: Hierarchical reinforcement learning for interactive navigation with mobile manipulators." Conference on Robot Learning. PMLR, 2020.

  9. ^Xia, Fei, et al. "Relmogen: Leveraging motion generation in reinforcement learning for mobile manipulation." arXiv preprint arXiv:2008.07792 (2020).



推荐阅读



双12极市回馈送你现金红包,领取即可提现,快来!

福利一:邀好友翻倍概率,瓜分现金666元

关注“极市平台”,回复关键词“1212”,参与抽奖即可瓜分666元现金红包。邀请好友参与抽奖助力,抽中概率翻倍!12月12日当天23点自动开奖~

福利二:邀3位好友,即领现金红包

邀请3位好友参与抽奖助力,即可瓜分100元!数量有限,先到先得!

添加极市小助手微信(ID : cvmart2),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群:每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k