强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
2022-07-07 20:14:30 7.09MB 强化学习 深度学习 DQN Q学习
1
源码-使用研究移动边缘计算,任务卸载的人员
2022-07-06 17:04:49 24.01MB 深度强化学习
1
1. 内含语料数据集 2. 内含训练源码预测源码 3. 内含预训练模型 4. 内含环境搭建教程
深度强化学习系列,包括最基础的DQN,DQN模型改进,DQN算法改进,分层DRL,基于策略梯度的深度强化学习等等
2022-06-30 18:10:51 72.23MB DQN
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
Python 强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习书籍代码
2022-06-07 15:34:07 42.84MB 强化学习 深度强化学习 TensorFlow
1
Python源代码,基于深度学习最短路径,DeepQlearning
2022-06-03 22:05:10 7KB python 开发语言
本文来自于网络,本文主要介绍了如何用深度强化学习来展示TensorFlow 2.0的强大特性,希望对您的学习有所帮助。在本教程中,我将通过实施AdvantageActor-Critic(演员-评论家,A2C)代理来解决经典的CartPole-v0环境,通过深度强化学习(DRL)展示即将推出的TensorFlow2.0特性。虽然我们的目标是展示TensorFlow2.0,但我将尽最大努力让DRL的讲解更加平易近人,包括对该领域的简要概述。事实上,由于2.0版本的焦点是让开发人员的生活变得更轻松,所以我认为现在是
2022-06-01 23:53:27 381KB TensorFlow2.0深度强化学习指南
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
自我监督预测的好奇心驱动探索 在ICML 2017中 , , ,加州大学伯克利分校 这是我们基于ICLS 基于张量流的实现,该。 当来自环境的外部奖励稀疏时,想法是用内在的基于好奇心的动机(ICM)来培训代理商。 令人惊讶的是,即使环境中没有可用的奖励,您也可以使用ICM,在这种情况下,代理仅出于好奇而学会探索:“没有奖励的RL”。 如果您发现这项工作对您的研究有用,请引用: @inproceedings{pathakICMl17curiosity, Author = {Pathak, Deepak and Agrawal, Pulkit and Ef
2022-05-30 14:48:41 2.04MB mario deep-neural-networks deep-learning tensorflow
1