解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者一评论家方法(1east square actor—critic algorithm,I。SAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将I。sAc算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor—critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
1
scott的强化学习导论
2021-03-31 12:02:53 5.59MB 强化学习
1
北京交通大学《工科化学》2016-2018年期中考试试卷(含答案)
2021-03-31 09:08:35 1.41MB 强化学习
北京交通大学《工科化学》课后思考题及习题答案
2021-03-31 09:08:35 4.9MB 强化学习
现代基础化学-课后答案
2021-03-31 09:06:38 3.88MB 强化学习
强化学习matlab源代码很少见的源代码,详细介绍Q学习的编程过程。
2021-03-31 08:58:53 2KB 强化学习 matlab 源代码
1
强化学习模仿写的一段自动打乒乓球可视化的实例,直接运行val.py可观察到可视化结果,另外附上训练好的.pth文件,方便看到每一步运行过程,运行时直接替换对应的pth文件即可。
2021-03-29 14:58:41 35.78MB 强化学习 直接能用
1
最新版人工智能-机器博弈白皮书,如下载出错请发邮件到fabulousgod@qq.com
2021-03-28 17:18:36 2.42MB 人工智能 强化学习 深度学习 机器学习
1
style-transfer-master.zip
2021-03-27 20:34:01 4.01MB 强化学习 深度学习
1
Atari Pong中的深度强化学习算法 概括 此应用程序的目标是找出深度Q学习(DQN)在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。 在DQN之上,测试了对相同算法的其他改进,包括多步DQN,Double DQN和Dueling DQN。 从下图可以看出,基本DQN仅需玩约110场游戏即可达到类似于人的准确性,而经过300场游戏即可达到极高的准确性。 此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。 基本DQN:第1集与第216集 环保环境 Atari 1600仿真器由OpenAI制作,您可以在59种不同的游戏上测试您的强化算法。 使用深度强化学习,因为输入是当前帧(210x160x3)的RGB图片。 由于RGB图片的计算量太大,因此变成了灰度。 接下来是将图像缩减采样并将其剪切到可播放区域,该区域的大小为84x84x1。 灰度,下采样和裁剪
2021-03-27 20:32:26 1.3MB Python
1