Breakout-RL:使用带有CNN的DQN解决OpenAI Gym Env突破
2022-02-24 16:30:50 5KB JupyterNotebook
1
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 在强化学习的世界里, 算法称之为Agent, 它与环境发生交互,Agent从环境中获取状态(state),并决定自己要做出的动作(action).环境会根据自身的逻辑给Agent予以奖励(reward)。奖励有正向和反向之分。比如在游戏中,每击中一个敌人就是正向的奖励,掉血或者游戏结束就是反向的奖励。 课程内容】 强化学习简介 强化学习基本概念 马尔科夫决策过程 Bellman方程 值迭代求解 代码实战求解过程 QLearning基本原理 QLearning迭代计算实例 QLearning迭代效果 求解流程详解 DeepQnetwork原理 DQN网络细节 DQN网络参数配置 搭建DQN网络模型 DQN卷积操作定义 数据预处理 实验阶段数据存储 实现训练模块 Debug解读训练代码 完整代码流程分析 DQN效果演示
1
基于Tensorflow实现的深度强化学习算法(Dueling DQN),python3.0及以上,依赖库:Gym、Numpy、Tensorflow
2022-02-24 10:30:12 5KB Deep Reinfor
1
DRQN-张量流 使用Tensorflow,openai / gym和openai / retro进行深度递归Q学习 该存储库包含用于在 Atari和环境上训练DQN或DRQN的代码。 请注意,到目前为止,在Retro环境中的训练都是完全实验性的,必须包装这些环境以将动作空间减少到每个游戏所有动作的更合理的子空间。 当前实现的包装仅对SEGA Sonic环境有意义。 安装 您可以通过发出以下命令来安装所有依赖项: pip install -r requirements.txt 这将在没有GPU支持的情况下安装Tensorflow。 但是,我强烈建议使用带有GPU支持的Tensorflow,否则培训将花费很长时间。 有关此主题的更多信息,请参见 。 为了运行复古环境,您必须收集要玩的游戏的rom并将其导入: : 跑步 您可以通过以下方式开始培训: python main.py --
2022-02-24 09:40:53 63.17MB tensorflow retro openai-gym dqn
1
DQN找最短路径算法,MATLAB实现,含界面,可运行!
2022-02-14 14:15:36 8KB matlab 算法 开发语言
多通道深度Q网络 该存储库包括用于参数化动作空间MDP的几种强化学习算法: P-DQN MP-DQN SP-DQN PA-DDPG 豪 Q-PAMDP 多遍深层Q网络(MP-DQN)通过使用几次遍历(并行批处理)将动作参数输入分配到Q网络来解决P-DQN的过度参数化问题。 拆分深度Q网络(SP-DQN)是一种慢得多的解决方案,它使用具有/不具有共享特征提取层的多个Q网络。 还为P-DQN提供了加权索引的动作参数损失函数。 依存关系 Python 3.5+(已通过3.5和3.6测试) pytorch 0.4.1(1.0+应该可以,但是会慢一些) 体育馆0.10.5 麻木 点击 域 提供了实验脚本,可通过参数化操作在以下域上运行每种算法: 平台( ) 机器人足球进球( ) 半场进攻( ) 上述OpenAI Gym环境的最简单安装方法如下: pip in
2022-02-14 10:19:51 63KB 系统开源
1
本文来自于csdn,本文章主要介绍了深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。如下式,通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可以自动提取复杂特征,因此,面对高维且连续的状态使用深度神经网络最合适不过了。DRL是将深度学习(DL
2022-02-14 00:41:48 395KB 深度强化学习——DQN
1
实验室 RL算法的某些实现主要使用pytorch。 目前已实施: DQN DDPG 资产净值 优势演员克里蒂 安装: git clone 跑步: 安装后,只需运行main.py
2022-01-14 17:07:45 435KB Python
1
maze_dqn 使用深度强化学习(DQN)解决迷宫任务
2022-01-06 09:45:12 18KB
1
sfc-dqn 该存储库是软件驱动的5G Slice中基于纸质增强学习的基于QoS / QoE感知服务功能链的tensorflow实现。 以下是文件简介: env.py:模拟SFC链分配的环境。 config.py:带宽,延迟和sfc请求的预设 dqn.py:DQN算法的核心代码。 train.py:运行此文件以单独训练DQN代理: python train.py 。 它将从ckpt /加载检查点文件并继续训练,并自动将检查点保存在ckpt /中。 注意:请改用main.py。 ckpt:用于存储预训练参数的文件夹。 运行eval.py,main.py时需要。 eval.py:评估DQN的平均QoE和错误率,并随机生成100个sfc请求。 尝试使用python eval.py查看平均QoE和错误率。 如果通过cpu运行,则DQN的完整时间可能会更长。 random_sfc.
2021-12-21 17:39:24 1.46MB Python
1