DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1
使用Python的强化学习算法 这是Packt发行的《 的代码库。 学习,理解和开发用于应对AI挑战的智能算法 这本书是关于什么的? 强化学习(RL)是AI的流行和有前途的分支,涉及制作更智能的模型和代理,这些模型和代理可以根据不断变化的需求自动确定理想的行为。 本书将帮助您掌握RL算法并在构建自学习代理时了解其实现。 本书首先介绍了在RL环境中工作所需的工具,库和设置,然后介绍了RL的组成部分,并深入研究了基于价值的方法,例如Q学习和SARSA算法的应用。 您将学习如何结合使用Q学习和神经网络来解决复杂的问题。 此外,在继续使用DDPG和TD3确定性算法之前,您将研究策略梯度方法TRPO和PPO,以提高性能和稳定性。 本书还介绍了模仿学习技术的工作原理以及Dagger如何教代理人驾驶。 您将发现进化策略和黑盒优化技术,并了解它们如何改善RL算法。 最后,您将掌握诸如UCB和UCB1
2021-12-17 10:05:28 89KB Python
1
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(DQN)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
1
POMDP:基于部分可观察的马尔可夫决策过程实现RL算法
1
用于多无人机对抗的多主体强化学习算法 这是“在战斗任务中进行多智能体强化学习的有效培训技术”的源代码,我们构建了源自多个无人驾驶飞机的战斗场景的多智能体对抗环境。 首先,我们考虑使用两种类型的MARL算法来解决这一对抗问题。 一种是从用于多代理设置(MADQN)的经典深度Q网络扩展而来的。 另一个是从最新的多主体强化方法,多主体深度确定性策略梯度(MADDPG)扩展而来。 我们比较了两种方法的初始对抗情况,发现MADDPG的性能优于MADQN。 然后以MADDPG为基准,提出了三种有效的训练技术,即场景转移训练,自学训练和规则耦合训练。 规则耦合红色特工vs随机移动蓝色特工 规则耦合的红色特工和蓝色特工通过自我比赛训练
2021-06-29 16:24:16 5.25MB 系统开源
1