本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第六讲,主要介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第七讲,主要介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第八讲,主要介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第九讲,主要介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十讲,主要介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系。
1
本课程为清华大学强化学习与控制,由清华大学长聘教授李升波主讲,共十一讲,本讲为第一讲,主要介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第二讲,主要介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。
1
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第四讲,主要介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
1
算法股票交易已经成为当今金融市场的一种主要交易方式,大多数交易现在已经完全自动化。深度强化学习(DRL)代理被证明是一种力量,在许多复杂的游戏,如国际象棋和围棋不可忽视。本文将股票市场的历史价格序列和走势看作是一个复杂的、不完全的信息环境,在这个信息环境中,本文试图实现收益最大化和风险最小化。
2021-07-09 12:06:59 1.5MB 强化学习
1
最优化方法与最优控制(研究生用)第一章最优化方法的一般概念第二章非线性规划第三章线性规划第四章最优控制与变分法第五章最小值定理第六章线性二次型最优控制系统第七章动态规划
2021-07-08 15:53:54 3.75MB 习题
1