大数跨境

DeepMind:让人工智能具备想象力

DeepMind:让人工智能具备想象力 北京智义科技有限公司
2017-07-27
4
导读:作者:Thomas Claburn翻译:Gabrielle概要:研究人员在一款益智视频游戏Sokoban和一


作者:Thomas Claburn

翻译:Gabrielle

概要:研究人员在一款益智视频游戏Sokoban和一款宇宙飞船视频游戏上分别测试了他们这款具备想象力的软件代理。


众所周知,谷歌旗下著名的人工智能公司DeepMind曾用程序击败世界顶尖围棋手,这似乎一度让充满智力优越感的人类倍感受挫。这个人工智能行业的翘楚最近又出新招,称为软件代理产品逐渐加入与想象相关的能力后,进一步提高了产品的学习能力。

 


图片:Sokoban推箱子游戏

上周,DeepMind发布了两篇相关论文阐释这一提升软件深度强化学习的新技术,分别为"Imagination-Augmented Agents for Deep Reinforcement Learning"和 "Learning model-based planning from scratch。DeepMind在文中大致将该技术描述为“想象式规划”。

 

强化学习是一种机器学习方法,智能软件代理需要通过与特定环境交互(大多为反复试验,不断试错)进行学习。深度学习也是一种机器学习方法,其中的算法仿造了人类大脑的思维方式,也就是常说的神经网络。这两种技术可以同时使用。


对于深度强化学习算法,可能需要有一些模型提供软件代理所应遵守的规则。比如,研究人员教软件玩电子游戏时,为避免软件在学习过程中过多地反复试验而增大开销,可能需要首先提供一个包含游戏信息的模型。或者,研究者也可以选择不需要模型的增强学习,让软件代理自己逐渐学会游戏规则。

 

但上述两种方法都有各自的弊端。基于模型的方法会丢失模型中没有捕捉到的信息,而不需要模型的方法则需要输入大量数据集,缺乏行为弹性,DeepMind希望能调和两者,找到最优策略。

 

研究人员在发布的第一篇论文中表示:“我们的方法没有对环境模型的架构和可能的缺陷做任何假设,特别是,不只依赖仿真结果,而是以一种端到端的方式将从模型模拟中提取有用信息。这样,软件代理就在基于模型的想象过程中学到东西,还避免了传统的基于模型规划策略的缺陷。”


也就是说,让软件工作之前先思考。

 

如何避免游戏死局

 

DeepMind的这款软件代理通过构建,评估和执行某个计划来进行学习。该软件结合了仿真(仿真起预先检测作用)与反复试验式的学习过程,最终避免出现游戏死局,找到通关的最佳路径。

 

研究人员在一款益智视频游戏Sokoban和一款宇宙飞船视频游戏上分别测试了他们这款具备想象力的软件代理。

 

Sokoban游戏来自日本,于1981年面世。游戏玩家需要在仓库附近推动箱子,但不能拉箱子,也就是说不当操作可能会使箱子遇到死胡同。因此,玩家需要在操作前先规划步骤。研究者表示,DeepMind游戏代理也能进行这样的规划,因此非常适合操作此类游戏。

 

游戏代理成功通过了Sokoban游戏85%的关卡,而标准的无模型代理只能通过60%。新代理玩该游戏的能力还超过了一款复制模型代理。后者是增强版的标准代理,但不具备想象性规划能力。


研究人员在博客 

(https://deepmind.com/blog/agents-imagine-and-plan/)

中写道:“在两个游戏中,增强了想象力的代理的表现都要远远超过缺乏想象力代理的平均水平。新代理虽然经验更少,但却可以通过学习,处理为环境建模过程中遇到的问题。这是因为,相比传统的搜索方法如蒙特·卡罗方法等,新代理能够从内部模拟中获取更多知识,用较少的想象就能完成更多任务。”

 

行事之前先思考,这似乎放慢了机器学习的速度,但DeepMind的研究人员对此不以为然:“在一些行为不可逆转的领域,这种思考能力非常关键。比如在Sokoban游戏中,一个错误行步骤可能直接导致灾难性的后果。”


原文链接:

https://www.theregister.co.uk/2017/07/21/deepmind_ai_imagination/


【声明】内容源于网络
0
0
北京智义科技有限公司
这里有最新的智小宝机器人动态。智小宝机器人是提供社群服务和聊天功能的智能机器人。永不离线,帮你活跃群气氛,在繁杂的群信息中提炼保存有效信息,管理大量的群成员,极大提高群活跃度和管理效率。
内容 105
粉丝 0
北京智义科技有限公司 这里有最新的智小宝机器人动态。智小宝机器人是提供社群服务和聊天功能的智能机器人。永不离线,帮你活跃群气氛,在繁杂的群信息中提炼保存有效信息,管理大量的群成员,极大提高群活跃度和管理效率。
总阅读278
粉丝0
内容105