随着DeepMind公司开发的AlphaGo升级版master战胜围棋世界冠军,其背后应用的强化学习思想受到了广泛关注,也吸引了我想一探究竟为什么强化学习的威力这么大。早在2015年,DeepMind就在youtube上发布了围棋程序master的主要作者David Silver主讲的一套强化学习视频公开课,较为系统、全面地介绍了强化学习的各种思想、实现算法。其一套公开课一共分为十讲,每讲平均为100分钟。其中既包括扎实的理论推导,也有很多有趣的小例子帮助理解,对于理解强化学习来说是一套非常好的教程。我在跟随这套教程学习的过程中一边听讲、一边笔记,最后编写代码实践,终于算是对强化学习的概念终于有了初步的认识,算是入门了吧。为了巩固加深自己的理解,同时也能为后来的学习者提供一些较为系统的中文学习资料,我萌生了把整个公开课系统整理出来的想法。
1