提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.

1
Sutton强化学习经典教材及python代码,全英文,适合对强化学习有兴趣的人使用
2022-07-20 15:28:11 17.68MB 强化学习 Sutton 代码
1
最新版强化学习教材,内容包括单智能体和多智能体。
1
【翻译原创】对on-policy deep actor-critic算法有影响的参数
2022-07-16 09:07:06 1.57MB 强化学习 算法 python 经验分享
1
pid控制器设计代码matlab 真棒纸 有关深度学习,强化学习,GAN和Quadrotor控制理论的最新论文清单。 最新的: 深度学习: 2017年 。 Jakob N.Foerster等al。 牛津大学,加州大学伯克利分校,CMU的OpenAI。 。 盖·卡兹(Guy Katz)等。 al。 斯坦福大学。 。 Priya Goyal等。 Facebook。 。 陈畅友等。 布法罗大学,杜克大学。 。 让·皮埃尔·布赖特(Jean-Pierre Briot)等。 巴黎高中。 索尼等 。 刘伟义等。 中国电子科技大学,IBM沃森研究中心,哥伦比亚大学,波士顿大学。 大卫·雅各布斯(David Jacobs)。 马里兰大学-马里兰大学学院分校。 。 UT奥斯汀。 Goodfellow等。 al。 蒙特利尔大学。 (2014)。 **苏吉思·拉维(Sujith Ravi)。 Google研究。 ** 。 Soumith。 。 Vishwanath等。 罗格斯。 。 九乡谷。 南大,新加坡。 。 永成静微软,亚利桑那州立大学。 。 梁铮等。 澳大利亚悉尼科技大学。 。 王枫代尔夫特。 。 J
2022-07-15 15:15:56 19.18MB 系统开源
1
零基础安装学习教程,快速入门手册。
2022-07-15 09:06:54 123B 强化学习
1
Draft, Second edition, in progress. Richard S. Sutton and Andrew G. Barto
2022-07-14 18:34:50 8.76MB 强化学习 Sutton
1
基于Pytorch实现的DQN算法,环境是基于CartPole-v0的。在这个程序中,复现了整个DQN算法,并且程序中的参数是调整过的,直接运行。 DQN算法的大体框架是传统强化学习中的Q-Learning,只不过是Q-learning的深度学习版本。DQN的改进主要有三个: 1. DQN的行为值函数利用神经网络逼近; 2. DQN维护一个回放缓冲区,将每次从环境中采样得到的四元组数据存储到回放缓冲区中,训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来进行训练; 3. DQN使用目标网络,使得算法的训练更加稳定。
2022-07-14 12:08:28 8KB DQN 强化学习 CartPole Pytorch
1
普通的 DQN 算法通常会导致对值的过高估计,通过神经网络估算的Q值本身在某些时候会产生正向或负向的误差,在 DQN 的更新方式下神经网络会将正向误差累积。对于动作空间较大的任务,DQN 中的过高估计问题会非常严重,造成 DQN 无法有效工作的后果。 为了解决这一问题,Double DQN 算法提出利用两个独立训练的神经网络估算值函数,将训练网络作为 Double DQN 算法中的第一套神经网络来选取动作,将目标网络作为第二套神经网络计算值,极大的缓解了DQN过估计的问题。 这个程序完整实现了DoubleDQN算法,并且在Pendulum-v0环境上验证了过估计问题,可以从实验结果中看出,DoubleDQN确实缓解了DQN的过估计问题。
2022-07-14 12:08:28 11KB 强化学习 过估计 DQN DoubleDQN
1
(实战)[re:Invent 2018]-001:赛道分析-(致敬1024) 配套资料
2022-07-13 21:09:52 4.68MB 强化学习
1