基于Pytorch实现的深度强化学习DQN算法源代码,具有超详细的注释,已经在诸多项目中得到了实际应用。主要包含2个文件:(1)dqn.py,实现DQN只能体的结构、经验重放池、Q神经网络、学习方法等;(2)runner.py,使用dqn.py中的智能体与环境进行交互与学习,并最终学会仿真月球车着陆游戏。
2022-08-29 11:05:46 8KB 强化学习 DQN 智能体 月球车着陆
1
DRL用于微电网能源管理 我们针对微电网的能源管理系统问题研究了各种深度强化学习算法的性能。 我们提出了一种新颖的微电网模型,该模型由风力涡轮发电机,储能系统,恒温控制负载,价格响应负载以及与主电网的连接组成。 拟议的能源管理系统旨在通过定义优先级资源,直接需求控制信号和电价来在不同的灵活性来源之间进行协调。 本文实现了七种深度强化学习算法,并进行了实证比较。 数值结果表明,不同的深度强化学习算法在收敛到最优策略的能力上存在显着差异。 通过将经验重播和第二个半确定性训练阶段添加到众所周知的“异步优势演员评论家”算法中,我们获得了更好的性能,并且在能效和经济价值方面收敛于高级策略。 有关此项目的更多信息,访问: :
2022-08-25 22:54:53 22.94MB HTML
1
改善败血症治疗策略 这是论文“使用深度强化学习和专家混合改善脓毒症治疗策略”的代码库 评论者评论 表1中的数据清楚地显示了数据集幸存者/非幸存者的失衡率。 学习不平衡会导致分类器的预测模型出现偏差。 但是,作者没有详细说明他们如何通过使用特定的重新平衡方法或对成本敏感的学习方法来解决此问题,但未提供任何评论。 数据集分为固定的75%训练和验证集和25%的测试集。“->作者应使用10倍交叉验证。 如表2所示,尽管他们的专家混合(MoE)方法的性能在数值上优于医师,内核和DQN的性能,但分析这种数值增加的显着性还是不错的。 随机策略会产生什么效果? 有没有一种方法可以衡量这些方法之间的性能差异的重要性? 本文未介绍其方法的任何时间性能。 训练这种方法需要多长时间? 这个培训时间对于为ICU患者制定个性化治疗策略是否可行? RL和Deep网络都因训练时间长而臭名昭著。 动机 败血症是IC
2022-08-16 14:27:18 478KB JupyterNotebook
1
深度强化学习,Deep Reinforcement Learning by Sergey Levine,172页英文文档。
2022-08-04 00:05:25 10.34MB 强化学习 Levine
1
SIGGRAPH 2018论文随附的介绍代码:“ DeepMimic:基于实例的角色导向的深度强化学习(基于物理的角色技能)”。 该框架使用强化学习来训练模拟人形动物,以模仿SIGGRAPH 2018论文随附的变量介绍代码:“ DeepMimic:基于实例的角色技能指导深度强化学习”。 该框架使用强化学习来训练模拟人形生物,以模仿来自运动捕捉数据的各种运动技能。 项目页面:https://xbpeng.github.io/projects/DeepMimic/index.html依赖项sudo apt安装libgl1-mesa-dev libx11-dev libxrandr-dev libxi-dev sudo apt安装mesa-utils sudo apt安装clang sudo apt安装cmake C ++:
2022-07-26 19:15:01 369.39MB C/C++ Machine Learning
1
最新版强化学习教材,内容包括单智能体和多智能体。
1
基于Pytorch实现的DQN算法,环境是基于CartPole-v0的。在这个程序中,复现了整个DQN算法,并且程序中的参数是调整过的,直接运行。 DQN算法的大体框架是传统强化学习中的Q-Learning,只不过是Q-learning的深度学习版本。DQN的改进主要有三个: 1. DQN的行为值函数利用神经网络逼近; 2. DQN维护一个回放缓冲区,将每次从环境中采样得到的四元组数据存储到回放缓冲区中,训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来进行训练; 3. DQN使用目标网络,使得算法的训练更加稳定。
2022-07-14 12:08:28 8KB DQN 强化学习 CartPole Pytorch
1
普通的 DQN 算法通常会导致对值的过高估计,通过神经网络估算的Q值本身在某些时候会产生正向或负向的误差,在 DQN 的更新方式下神经网络会将正向误差累积。对于动作空间较大的任务,DQN 中的过高估计问题会非常严重,造成 DQN 无法有效工作的后果。 为了解决这一问题,Double DQN 算法提出利用两个独立训练的神经网络估算值函数,将训练网络作为 Double DQN 算法中的第一套神经网络来选取动作,将目标网络作为第二套神经网络计算值,极大的缓解了DQN过估计的问题。 这个程序完整实现了DoubleDQN算法,并且在Pendulum-v0环境上验证了过估计问题,可以从实验结果中看出,DoubleDQN确实缓解了DQN的过估计问题。
2022-07-14 12:08:28 11KB 强化学习 过估计 DQN DoubleDQN
1
CS285 Deep Reinforcement Learning 2021 Lecture Slides UCL的深度强化学习课程的PPT
2022-07-13 21:07:30 2.67MB 深度强化学习
1
CS285 Deep Reinforcement Learning 2021 Lecture Slides UCL的深度强化学习课程的PPT
2022-07-11 09:12:53 4.3MB 深度强化学习
1