DQN深度强化学习算法, 水下机器人姿态控制, python代码
2021-08-29 20:03:04 10KB DQN python代码 姿态控制
A2C深度强化学习算法, 姿态控制, python代码
深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird
1
OpenAI Baselines: 强化学习算法的高质量实现
2021-08-02 21:20:51 4.61MB Python开发-机器学习
1
这是从国外网站上找到的强化学习的源代码,和大家共同学习。
2021-07-22 21:59:19 56KB 强化学习
1
AI 发展日新月异 , 既单一最强 AI AlphaGo 划时代诞生后 , 通用 AI 也呼之欲出 , 而 AlphaZero 的横空出世 , 证明了通用 AI 这条路的可行性 . 从这一刻起 , 人类历史或将被改写 !
2021-07-17 15:05:59 484KB 强化学习 人工智能 对弈 深度学习
1
PyTorch实现的强化学习算法
2021-07-10 16:24:14 482KB Python开发-机器学习
1
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策 略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新 定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最 优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.
1
pytorch框架,主要实现算法有Q-Learning,Sarsa,DQN,DQN-cnn,DoubleDQN,Hierarchical DQN,PG,A2C,SAC,PPO,DDPG,TD3等,能够满足GPU和CPU不同条件,实现模型保存,断点续训,测试结果绘图等,可在此框架魔改你的环境,相当不错。
2021-06-19 19:08:09 147.4MB pytorch python 强化学习 深度学习
1
强化学习算法,实现强化学习对网络资源的分配,目的是频谱利用最大化 强化学习算法,实现强化学习对网络资源的分配,目的是频谱利用最大化
2021-05-22 16:44:45 2KB 强化学习算法
1