深度强化学习系列,包括最基础的DQN,DQN模型改进,DQN算法改进,分层DRL,基于策略梯度的深度强化学习等等
2022-06-30 18:10:51 72.23MB DQN
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
Python 强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习书籍代码
2022-06-07 15:34:07 42.84MB 强化学习 深度强化学习 TensorFlow
1
Python源代码,基于深度学习最短路径,DeepQlearning
2022-06-03 22:05:10 7KB python 开发语言
本文来自于网络,本文主要介绍了如何用深度强化学习来展示TensorFlow 2.0的强大特性,希望对您的学习有所帮助。在本教程中,我将通过实施AdvantageActor-Critic(演员-评论家,A2C)代理来解决经典的CartPole-v0环境,通过深度强化学习(DRL)展示即将推出的TensorFlow2.0特性。虽然我们的目标是展示TensorFlow2.0,但我将尽最大努力让DRL的讲解更加平易近人,包括对该领域的简要概述。事实上,由于2.0版本的焦点是让开发人员的生活变得更轻松,所以我认为现在是
2022-06-01 23:53:27 381KB TensorFlow2.0深度强化学习指南
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
自我监督预测的好奇心驱动探索 在ICML 2017中 , , ,加州大学伯克利分校 这是我们基于ICLS 基于张量流的实现,该。 当来自环境的外部奖励稀疏时,想法是用内在的基于好奇心的动机(ICM)来培训代理商。 令人惊讶的是,即使环境中没有可用的奖励,您也可以使用ICM,在这种情况下,代理仅出于好奇而学会探索:“没有奖励的RL”。 如果您发现这项工作对您的研究有用,请引用: @inproceedings{pathakICMl17curiosity, Author = {Pathak, Deepak and Agrawal, Pulkit and Ef
2022-05-30 14:48:41 2.04MB mario deep-neural-networks deep-learning tensorflow
1
python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深
pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,同步pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,这是A3C近端策略优化PPO的同步确定性版本,用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子:A2C / ACKTR和PPO获得更多信息
2022-05-26 11:38:01 8.53MB Python Deep Learning
1
在被动式Biped机器人的研究中,避免跌倒一直是研究的重要方向。 在本文中,我们提出了深度确定性策略梯度(DDPG)来控制Biped机器人在斜坡上的稳定行走。 为了提高DDPG的训练速度,本文中使用的DDPG通过并行参与者和优先体验重放(PER)进行了改进。 在模拟中,我们控制导致Biped机器人跌倒的不同初始状态。 控制后,两足动物机器人可以稳定行走,这表明DDPG可以有效地控制两足动物机器人的跌倒。
2022-05-24 10:29:06 907KB 研究论文
1