
一年前,一只阿尔法狗(AlphaGo)横空出世,它在学习了几百万册人类棋谱后,参透了围棋奥义,以4-1打败了人类世界的围棋冠军李世石,改变围棋领域的格局。
最近,它的弟弟阿尔法元(AlphaGo Zero)没看过一本棋谱,也没得到过任何人的指点,仅凭自己摸爬滚打,自娱自乐,下了几千万盘棋后,变成了顶尖高手。3天后,它以100:0的成绩战胜了哥哥,再次刷新围棋领域的排名。

伦敦当地时间10月18日18:00,研究团队DeepMind再次在《自然》(Nature)杂志上发表了一篇关于AlphaGo的文章,称新一代AI程序AlphaGo Zero(阿尔法元)在没有任何人类输入的情况下,可以自学成才。


此前,2016年1月28日,《自然》杂志就发表了封面文章,推出DeepMind公司的研究成果,即曾击败欧洲围棋冠军樊麾的人工智能程序AlphaGo。
旧版AlphaGo在今年5月战胜柯洁后宣布退役,但DeepMind公司仍在继续研究AlphaGo系列产品,此次发表的重磅论文就是为了推出迄今为止的最强版AlphaGo,代号AlphaGo Zero。

这只新的阿尔法狗不简单,它可以在完全没有人类帮助的情况下,自学成才。而且,从“一张白纸”到“顶级高手”,它只需要短短3天时间!
Zero的无敌和强大令人震惊,但在某种意义上或许可以说,人类把阿尔法狗教坏了!它不需要人类的“教育和帮助”了。
戳视频,看看Zero到底厉害在哪里。
AlphaGo项目首席研究员大卫·席尔瓦(David Silver)说,AlphaGo Zero的水平超过以前所有的AlphaGo版本,尤其值得一提的是,它击败了曾战胜世界围棋冠军李世石的旧版。

DeepMind联合创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)说,“Zero提高了计算效率,并且没有使用到任何人类围棋数据。”
不使用人类的围棋数据,AlphaGo Zero是如何实现自学的呢?那就要先说说Zero与“旧狗”有哪些不同。
旧版Alpha Go需要先学习数百万份人类棋谱,还要经过几个月的密集训练,从而进行自我训练,实现超越。
与“旧狗”不同的是,新版Zero却能够“无师自通”,完全不需要任何历史棋谱的指引,也不需要人类的任何先验知识,完全靠自己的强化学习(reinforcement learning)。

Zero的学习原理是这样的:研究团队事先没有给Zero学习任何人类棋谱,只告诉它围棋的规则,就让它自己在棋盘上下棋,与自己进行对弈,从一次次试验和失败中吸取经验教训,摸索规律,在实战中提高棋艺。
除了学习原理外,另一点与“旧狗”不同的是,Zero使用了单一的神经网络。
此前版本的AlphaGo都是用了两种神经网络,一种用来预测下一步棋最好的走法,另一种用来计算,根据这些走法,谁更有可能获胜。
而Zero把这两种网络合二为一,只让神经网络预测获胜者,从而能够得到更高效的训练和评估,就好像让一个围棋高手来预测比赛结果一样。
此外,Zero也不再使用快速而随机的走子方法。“旧狗”会通过快速走子来预测哪个棋手会从当前局面中获胜,而Zero则通过高质量的神经网络来评估棋局。
如此看来,“旧狗”像是走一步看三步、步步为营的棋手,而Zero更像是纵观全局、成竹在胸的围棋大师。
DeepMind团队称,Zero用更新后的神经网络和搜索算法重组,随着训练加深,系统的表现不断进步。自我博弈的成绩也越来越好。同时,神经网络也变得更准确。

Zero强化学习下的自我对弈
经过40天的训练和3000万次对弈,Zero就能战胜此前世界上最牛的围棋手Alpha Master。
戳图,看看Zero在反复的自我对弈和学习中棋艺进步的过程。

At first, AlphaGo Zero’s learning mirrored that of human players. It started off trying greedily to capture stones, as beginners often do, but after three days it had mastered complex tactics used by human experts. “You see it rediscovering the thousands of years of human knowledge,” said Hassabis.
Zero的学习很好地反映了人类棋手学习的过程。像初学者一样,开始只是贪婪地想要吃掉对方的棋子。但是经过3天训练,它就能掌握人类围棋高手所使用的复杂的技巧,“它重新发现了人类几千年的知识”,哈萨比斯说。
可以看出,Zero的胜率一直在提升。3天后能战胜李世石,21天后能战胜AlphaGo Master,而40天后,就能超过AlphaGo此前的所有版本。

Zero更厉害的一点在于,随着训练的深入,它不仅棋艺获得极大提升,而且不再受到人类认知的局限,能够发现新知识,独立发现游戏规则,并且发展新策略,而这些具有创造性的围棋招式,模仿并完全超越了AlphaGo在与李世石和柯洁对弈时所使用的新技巧。
AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.

AlphaGo几个版本的排名
美国的两位棋手在《自然》杂志上对Zero的棋局做出点评:
The AI’s opening choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
它的开局和收官与专业棋手的下法并无区别,它按照基本原则,与人类的走法基本一致,这说明人类几千年的智慧结晶,看起来并非全错。但是,Zero中盘的有些走法却很诡异。
知社学术圈采访了美国杜克大学人工智能专家陈怡然教授,他表示:
DeepMind最新推出的AlphaGo Zero……摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。
陈怡然也提出了一个AI领域的科学家和实践者需要思考的问题:“在未来发展中,我们究竟应该如何看待人类经验的作用。”
在AlphaGo Zero自主学会的走法中,有一些与人类走法一致,区别主要在中间相持阶段。AlphaGo Zero已经可以给人类当围棋老师,指导人类思考之前没见过的走法,而不用完全拘泥于围棋大师的经验。也就是说AlphaGo Zero再次打破了人类经验的神秘感,让人脑中形成的经验也是可以被探测和学习的。
谢菲尔德大学计算机神经科学教授Eleni Vasilaki在接受《卫报》采访时表示这样的技术成就是非常了不起的。但是她也指出:
While computers are beating humans at games that involve complex calculations and precision, they are far from even matching humans at other tasks.
在一些涉及复杂计算和精密度的游戏中,计算机可以打败人类,但在其他一些任务中,人工智能还是有较大差距的。
美国卡耐基梅隆大学的计算机科学家Tom Mitchell称:
“It closes the book on whether humans are ever going to catch up with computers at Go. I guess the answer is no. But it opens a new book, which is where computers teach humans how to play Go better than they used to.”
这次尝试回答了人类在围棋领域能否追上AlphaGo的问题,我认为答案是否定的。但是它开启了一个新的课题,那就是计算机教会人们如何下围棋才能比他们以往做得更好。
当然,席尔瓦表示,研发这款“无敌”的Zero并不是为了战胜人类,而是为了探索科学的意义。
Zero也让DeepMind看到了利用人工智能技术改变人类命运的突破。
DeepMind团队的目标是要利用AlphaGo打造通用的、探索宇宙的终极工具。
哈萨比斯说:
This ability to self-train without human input is a crucial step towards the dream of creating a general AI that can tackle any task. In the nearer-term, though, it could enable programs to take on scientific challenges such as protein folding or materials research.
无需人类输入能够自我学习的技能是打造通用人工智能的一个关键步骤,这项技术可以帮助人类解决很多科技难题,比如蛋白质折叠或新材料研发等等。
Several DeepMind researchers have already moved from working on AlphaGo to applying similar techniques to practical applications, said Hassabis.
目前,有些团队成员已经开始将AlphaGo的技术应用到其他相关领域。
此外,DeepMind目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。
那么,你如何看待Zero的自学能力,如何预测人工智能的未来呢?

编辑:胡雨濛、王瑜
来源:澎湃新闻、知社学术圈(ID:zhishexueshuquan)
看完先别走啊。写稿好累,外卖好贵!
请允许双语君隆重介绍下这篇稿件的小编
——CD君。
扫码,值得一看。↓↓




