近日,Google DeepMind 在 Nature 上发表了一篇论文,介绍了这家世界顶级人工智能机构在计算机围棋方面的最新研究成果 AlphaGo Zero(参阅机器之心文章《无需人类知识,DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature》)。这个在学习过程中没有使用任何人类知识的人工智能程序可以轻松地以 100 比 0 的成绩击败去年 3 月战胜了李世乭的 AlphaGo 版本。AlphaGo Zero 论文发布之后,阿尔伯塔大学 Yuxi Li 博士对该程序的工作原理进行了分析,并使用伪代码的方式对其训练过程进行了描述。
1 引言
2016 年 3 月,AlphaGo(Silver et al., 2016)击败了带有 18 个国际冠军头衔的人类顶级围棋手,造就了人工智能领域的一大里程碑。AlphaGo Zero(Silver et al., 2017)则实现了更进一步的提升,在不使用人类知识的情况下学习到了一个超人水平的计算机围棋程序。
AlphaGo(Silver et al., 2016; 2017)立足于深度学习、强化学习(RL)和蒙特卡洛树搜索(MCTS)。这一波深度强化学习浪潮起始于深度 Q 学习(Mnih et al., 2015);全面概述请参阅 Li (2017) https://arxiv.org/abs/1701.07274。
另一方面,AlphaGo 算法,尤其是其底层的技术(即深度学习、强化学习和蒙特卡洛树搜索),则有很多应用。Silver et al. (2016) 和 Silver et al. (2017) 推荐了以下应用:通用的游戏问题(尤其是视频游戏)、经典的规划问题、仅观察到部分信息的规划问题、调度问题、约束满足问题、机器人、工业控制和在线推荐系统。AlphaGo Zero 博客还提到了以下结构化问题:蛋白质折叠、降低能耗和搜寻革命性的新材料。参阅 Li (2017) 了解更多 AlphaGo 算法的应用和底层技术(尤其是深度强化学习)。
Li, Y. (2017). Deep Reinforcement Learning: An Overview. ArXiv e-prints.
Littman, M. L. (2015). Reinforcement learning improves behaviour from evaluative feedback. Nature, 521:445–451.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou,I., King, H., Kumaran, D., Wierstra, D., Legg, S., and Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540):529–533.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489.
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., Chen, Y., Lillicrap, T., Hui, F., Sifre, L., van den Driessche, G., Graepel, T., and Hassabis, D. (2017). Mastering the game of go without human knowledge. Nature, 550:354–359.
Sutton, R. S. and Barto, A. G. (2017). Reinforcement Learning: An Introduction (2nd Edition, in preparation). MIT Press.
算法 1:AlphaGo Zero 训练过程的伪代码,基于 Silver et al. (2017)