AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布

自媒体 自媒体

AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布 [本文来自:www.pp00.com]

来源:量子位

[本文来自:www.pp00.com]

作者:乾明 一璞 栗子 晓查


不仅会下围棋,还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面


同时,这也是经过完整同行审议的AlphaZero论文,首次公开发表。


论文描述了AlphaZero如何快速学习每个游戏,如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下,成为史上最强大的棋类人工智能。


《科学》杂志评价称,能够解决多个复杂问题的单一算法是创建通用机器学习系统,解决实际问题的重要一步。


DeepMind说,现在AlphaZero已经学会了三种不同的复杂棋类游戏,并且可能学会任何一种完美信息博弈的游戏,这“让我们对创建通用学习系统的使命充满信心”。


AlphaZero到底有多厉害?再总结一下。


  • 在国际象棋中,AlphaZero训练4小时就超越了世界冠军程序Stockfish;

  • 在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo。

  • 在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo。

AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布

AlphaZero有什么不同


国际象棋有什么难的?


实际上,国际象棋是计算机科学家很早就开始研究的领域。1997年,深蓝击败了人类国际象棋冠军卡斯帕罗夫,这是一个人工智能的里程碑。此后20年,国际象棋的算法在超越人类后,一直还在不断地进步。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


这些算法都是由强大的人类棋手和程序员构建,基于手工制作的功能和精心调整的权重来评估位置,并且结合了高性能的alpha-beta搜索。


而提到游戏树的复杂性,日本将棋比国际象棋还难。日本将棋程序,使用了类似国际象棋的算法,例如高度优化的alpha-beta搜索,以及许多有针对性的设置。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


AlphaZero则完全不同,它依靠的是深度神经网络、通用强化学习算法和通用树搜索算法。除了基本规则之外,它对这些棋类游戏一无所知。


其中,深度神经网络取代了手工写就的评估函数和下法排序启发算法,蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索。


AlphaZero深度神经网络的参数,通过自我博弈的强化学习来训练,从随机初始化的参数开始。


随着时间推移,系统渐渐从输、赢以及平局里面,学会调整参数,让自己更懂得选择那些有利于赢下比赛的走法。


那么,围棋和国际象棋、将棋有什么不同?


围棋的对弈结局只有输赢两种,而国际象棋和日本将棋都有平局。其中,国际象棋的最优结果被认为是平局。


此外,围棋的落子规则相对简单、平移不变,而国际象棋和日本将棋的规则是不对称的,不同的棋子有不同的下法,例如士兵通常只能向前移动一步,而皇后可以四面八方无限制的移动。而且这些棋子的移动规则,还跟位置密切相关。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


尽管存在这些差异,但AlphaZero与下围棋的AlphaGo Zero使用了相同架构的卷积网络。


AlphaGo Zero的超参数通过贝叶斯优化进行调整。而在AlphaZero中,这些超参数、算法设置和网络架构都得到了继承。


除了探索噪声和学习率之外,AlphaZero没有为不同的游戏做特别的调整。


5000个TPU练出最强全能棋手


系统需要多长时间去训练,取决于每个游戏有多难:国际象棋大约9小时,将棋大约12小时,围棋大约13天。


只是这个训练速度很难复现,DeepMind在这个环节,投入了5000个一代TPU来生成自我对弈游戏,16个二代TPU来训练神经网络。


训练好的神经网络,用来指引一个搜索算法,就是蒙特卡洛树搜索 (MCTS) ,为每一步棋选出最有利的落子位置。


每下一步之前,AlphaZero不是搜索所有可能的排布,只是搜索其中一小部分。


比如,在国际象棋里,它每秒搜索6万种排布。对比一下,Stockfish每秒要搜索6千万种排布,千倍之差。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布

△ 每下一步,需要做多少搜索?

AlphaZero下棋时搜索的位置更少,靠的是让神经网络的选择更集中在最有希望的选择上。DeepMind在论文中举了个例子来展示。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


上图展示的是在AlphaZero执白、Stockfish执黑的一局国际象棋里,经过100次、1000次……直到100万次模拟之后,AlphaZero蒙特卡洛树的内部状态。每个树状图解都展示了10个最常访问的状态。


经过全面训练的系统,就和各个领域里的最强AI比一比:国际象棋的Stockfish,将棋的Elmo,以及围棋的前辈AlphaGo Zero。


每位参赛选手都是用它最初设计中针对的硬件来跑的:


Stockfish和Elmo都是用44个CPU核;AlphaZero和AlphaGo Zero用的都是一台搭载4枚初代TPU和44个CPU核的机器。


(一枚初代TPU的推理速度,大约相当于一个英伟达Titan V GPU。)


另外,每场比赛的时长控制在3小时以内,每一步棋不得超过15秒。


比赛结果是,无论国际象棋、将棋还是围棋,AlphaGo都击败了对手:

  • 国际象棋,大比分击败2016 TCEC冠军Stockfish,千场只输155场。

  • 将棋,大比分击败2017 CSA世界冠军Elmo,胜率91.2%。

  • 围棋,击败自学成才的前辈AlphaGo Zero,胜率61%。

AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


不按套路落子

因为AlphaZero自己学习了每种棋类,于是,它并不受人类现有套路的影响,产生了独特的、非传统的、但具有创造力和动态的棋路。


在国际象棋里,它还发展出自己的直觉和策略,增加了一系列令人兴奋的新想法,改变了几个世纪以来对国际象棋战略的思考。


国际象棋世界冠军卡斯帕罗夫也在《科学》上撰文表示,AlphaZero具备动态、开放的风格,“就像我一样”。他指出通常国际象棋程序会追求平局,但AlphaZero看起来更喜欢风险、更具侵略性。卡斯帕罗夫表示,AlphaZero的棋风可能更接近本源。


卡斯帕罗夫说,AlphaZero以一种深刻而有用的方式超越了人类。


AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布


国际象棋大师马修·萨德勒(Matthew Sadler)和女性国际大师娜塔莎·里根(Natasha Regan)即将于2019年1月出版新书《棋类变革者(Game Changer)》,在这本书中,他们分析了数以千计的AlphaZero棋谱,认为AlphaZero的棋路不像任何传统的国际象棋引擎,马修·萨德勒评价它为“就像以前翻看一些厉害棋手的秘密笔记本。”


Copyright2018.皮皮自媒体资讯站,让大家及时掌握各行各业第一手资讯新闻!