这里是 ShowMeAI 持续分享的【开源eBook】系列!内容覆盖机器学习、深度学习、数据科学、数据分析、大数据、Keras、TensorFlow、PyTorch、强化学习、数学基础等各个方向。整理自各平台的原作者公开分享(审核大大请放手)
◉ 简介:这是新书『强化学习的数学基础』的书稿,作者赵世钰,现任西湖大学工学院智能无人系统实验室主任。2022年秋季是作者第四次教授强化学习的研究生课程,撰写这份资料是为了弥补已有教材的不足。
◉ 目录:
第2章:贝尔曼方程,是分析状态值的基本工具
第3章:贝尔曼最优方程,是一个特殊的贝尔曼方程
第4章:值迭代算法,是一种求解贝尔曼最优方程的算法
第5章:蒙特卡罗学习,是第4章策略迭代算法的扩展
第6章:随机逼近的基础知识
第7章:时差学习,第6章是本章的基础
第8章:扩展了表格时间对价值函数逼近情况的差分学习方法
第9章:策略迭代
第10章:actor-critic 方法
1