
“谷李”世纪大战硝烟散尽,由此引发的机器学习与人工智能的热潮不减反增。近日又有消息爆出AlphaGo将在网游上一展身手。开发AlphaGo的团队Deepmind透露,最近他们正在研究一套系统,用来按照《炉石传说》的卡牌规则进行代码编写。
该系统基于一套神经网络结构,利用了Pyhon语言编写的《炉石传说》开源版本和Java语言编写的《万智牌》。该系统总共将帮助阿法狗理解超过10000张万智牌和500张的炉石传说卡牌。当全部学习完成之后,阿法狗会根据技能机制与斩杀伤害完成优化牌组。Deepmind表示,未来他们希望能让阿法狗与《炉石传说》职业玩家进行对战。

但是《炉石传说》这款游戏具有非常高的随机性,不管你有多深的套路,如果抽牌时惊现“上帝之手”,管你来的是阿法狗还是阿法猫,全都得接受审判!与人类相比,虽然阿法狗的优势在于计算,但是拼运气这个东西还真是看脸的......
据悉,除了《炉石传说》之外,阿法狗还准备进军《星际争霸》、《魔兽争霸》以及《英雄联盟》。AlphaGo都要大举进攻网游界了,我们赶紧来看看阿尔法狗之父对人工智能AlphaGo战胜李世石的解读。
AlphaGo团队复盘对战李世石
有着阿尔法狗之父之称的大卫·席尔瓦(David Silver)近日回到英国伦敦,在母校伦敦大学学院(UniversityCollege London,UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李世石的5番棋大战,在场的听众被禁止拍照。这也是赛后,阿尔法狗团队的首次半公开复盘。
第一盘的胜负关键处是,AlphaGo执白棋第102手打入黑空,职业高手们普遍认为这是一招险招,看上去李世石对此也早有准备。事后看,棋局的进程却是李世石应对有误,进入到了AlphaGo的计算步调中。再下了几手棋之后,AlphaGo已经优势明显。
第二盘棋的开局不久,AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔瓦称其为反人类(unhuman)一手——第37手5路肩冲。观战的多数职业高手认为这不太成立,超出了职业高手们正常的行棋逻辑。
随后的进程,这手棋的价值逐渐闪现,李世石又一次输得毫无脾气。席尔瓦解释道:“多数评论员都第一时间批评这一步棋,从来没有人在这样的情况下走出如此一着。在胜负已定之后,一些专业人士重新思考这一步,他们改口称自己很可能也会走这一着。”而在AlphaGo看来,当时只是一步很正常的走子选择而已。
对于第一盘棋和第二盘棋,许多职业围棋选手以及媒体分析都认为,AlphaGo逆转取胜,但是在AlphaGo自身的价值网络所做的实时胜率分析看来,自己始终处于领先。
在AlphaGo获胜的4盘中,AlphaGo系统自有的胜率评估始终都是领先李世石,从头到尾压制直到最终获胜。

第三盘和第五盘,AlphaGo 都是在棋局刚开始不久,就已经取得了明显优势并持续提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同,AlphaGo的自有胜率评估是基于一个价值模块,做出对棋局胜负的预计。
这两种判断截然不同。当第五盘右下角的争夺错综复杂时,AlphaGo选择脱先,转而落子在其他位置。不少职业棋手认为,AlphaGo在此犯错并落后了,但AlphaGo的选择却是依据全局最优估计而做出的。
以几局的成败论,AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传统的理解范畴,不再局限于棋手多年培养出来的围棋直觉和套路定式,会选择探索职业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上,还进行了大量的自我对弈,从而研究出了一些人类从未涉及到的走法。
“神之一手”的背后
AlphaGo系统并非无懈可击,但是,漏洞并不是所谓的模仿棋、打劫等等。它的漏洞体现在李世石赢得比赛的第四盘棋,AlphaGo取得巨大进步的价值模块出现了瑕疵,这也是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盘失利。
在第四盘棋中,开局之后很快就几陷绝境中的李世石,弈出了被来自中国的世界冠军古力成为“神之一手”的白78手,凌空一挖。坚韧如山的对手突然倒下,AlphaGo变得不知所措,连续出现低级昏招,这也成就了AlphaGo有记载的公开的第一局失利。
对于AlphaGo的异常表现,各路观战的职业高手充满了猜测。即使是观赛的哈撒比斯和席尔瓦也都不知道究竟发生了什么。

事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石遥遥领先,之后再也没有缩短差距。
为什么AlphaGo面对李世石的第78手表现如此差,是因为它没有想到李世石的这手棋吗?
席尔瓦揭晓了这一秘密。AlphaGo的计算体系中,的确曾经评估过这手棋,只是在AlphaGo的评估中,李世石走那一子的概率大概是万分之一,最终,它没有想到李世石会这样走,也就没有计算李世石这样走之后如何应对。
赛后,获胜的李世石则说,这一手在他看来是唯一的选择。
AlphaGo背后的蒙特卡洛树搜索依赖的策略网络,是根据人类对弈棋谱数据训练出来的模型,它很难去预测白78手这样的所谓手筋妙招,也就很难判断基于这一步继续往下搜索之后的胜负状态。
这就是AlphaGo在这5盘对局中表现出的唯一破绽,也是目前人类智慧还领先于AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General Intelligence)的地方。
注:文章综合整理自钛媒体及TechWeb,以非盈利为目的发布,如有侵权,请及时联系我们,我们将第一时间做出妥善处理。



