2016年AlphaGo战胜人类顶级围棋选手,标志人工智能的一个重要里程碑事件,其中强化学习方法做出了重要的贡献。麻省理工、斯坦福、卡内基梅隆等著名学府纷纷开设或着重强化学习的课程。
强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态做出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。
R. Sutton和A. Barto的《强化学习导论》自1998年第一版发行,为强化学习的关键思想和算法提供了一个清晰而简单的描述,系统介绍了该领域的知识基础和历史到最近的发展和应用。该书被公认是一本经典教材,目前正在更新出版第二版,在网上有电子版可以参考。本课程以该书为主要教材,并展开介绍最新的强化学习算法和深度强化学算法。可作为人工智能学院研究生的专业基础课。