基于Pytorch实现的DQN算法,环境是基于CartPole-v0的。在这个程序中,复现了整个DQN算法,并且程序中的参数是调整过的,直接运行。 DQN算法的大体框架是传统强化学习中的Q-Learning,只不过是Q-learning的深度学习版本。DQN的改进主要有三个: 1. DQN的行为值函数利用神经网络逼近; 2. DQN维护一个回放缓冲区,将每次从环境中采样得到的四元组数据存储到回放缓冲区中,训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来进行训练; 3. DQN使用目标网络,使得算法的训练更加稳定。
2022-07-14 12:08:28 8KB DQN 强化学习 CartPole Pytorch
1
普通的 DQN 算法通常会导致对值的过高估计,通过神经网络估算的Q值本身在某些时候会产生正向或负向的误差,在 DQN 的更新方式下神经网络会将正向误差累积。对于动作空间较大的任务,DQN 中的过高估计问题会非常严重,造成 DQN 无法有效工作的后果。 为了解决这一问题,Double DQN 算法提出利用两个独立训练的神经网络估算值函数,将训练网络作为 Double DQN 算法中的第一套神经网络来选取动作,将目标网络作为第二套神经网络计算值,极大的缓解了DQN过估计的问题。 这个程序完整实现了DoubleDQN算法,并且在Pendulum-v0环境上验证了过估计问题,可以从实验结果中看出,DoubleDQN确实缓解了DQN的过估计问题。
2022-07-14 12:08:28 11KB 强化学习 过估计 DQN DoubleDQN
1
(实战)[re:Invent 2018]-001:赛道分析-(致敬1024) 配套资料
2022-07-13 21:09:52 4.68MB 强化学习
1
CS285 Deep Reinforcement Learning 2021 Lecture Slides UCL的深度强化学习课程的PPT
2022-07-13 21:07:30 2.67MB 深度强化学习
1
强化学习实现多跳推理-知识图谱
2022-07-12 17:05:44 417KB 强化学习 知识图谱
1
强化学习中离策略算法的分析及研究.pdf
2022-07-11 19:13:38 1.92MB 文档资料
强化学习理论、算法及应用.pdf
2022-07-11 19:13:37 419KB 文档资料
强化学习算法在供应链环境下的库存控制中的应用.pdf
2022-07-11 19:13:36 143KB 文档资料
强化凝聚聚类 为了克服聚集聚类中传统链接标准的贪婪性,我们提出了一种强化学习方法,通过将聚集聚类建模为马尔可夫决策过程来学习非贪婪合并策略。 是层次聚类的一种“自下而上”的方法,其中每个观察值都在其自己的聚类中开始,并且随着一个聚类向上移动,聚类对将合并。 聚集聚类是一个顺序决策问题,它伴随着一个问题,即较早做出的决定会影响较晚的结果。 但是传统的链接标准无法通过简单地测量当前阶段集群的相似性来解决这个问题。 这促使我们将聚类建模为马尔可夫决策过程,并通过强化学习对其进行求解。 代理应该学习非贪婪的合并策略,以便选择每个合并操作以获得更好的长期折价奖励。 该状态定义为当前聚类的特征表示。 我们使用池来聚合所有集群的功能。 该动作定义为合并群集i和群集j。 我们使用Q学习来计算状态-动作对的值。 在训练中,奖励是通过图像的地面真相标签来计算的。 并且在测试时,我们在不同的域中测试代理,以
2022-07-11 15:33:48 25KB Python
1
复合材料最优控制与结构优化设计中的多尺度模型与算法.pdf
2022-07-11 14:12:17 8.74MB 文档资料