关于actor-critic的例子,适合初学者对深度强化学习actor-critic的认识和了解
2022-03-22 10:18:59 31KB actor-critic
1
Playing Mountain Car Using Actor-Critic MethodPlaying Mountain Car Using Actor-Critic Method
2022-01-15 16:00:19 13KB Playing Mountain
1
DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–256,1992年。 影评人:理查德·萨顿(Richard S Sutton),大卫·麦卡莱斯特(David A McAllester),萨特德·辛格(Satinder P Singh)和伊谢·曼苏(Yishay Mansour)。 通过函数逼近进行强化学习的策略梯度方法。 在《神经信息处理系统的进步
2021-11-29 19:50:58 15KB Python
1
Reinforcement-learning-in-GTA V 在 GTAV 环境 中使用强化学习算法(Actor-Critic-LSTM) 配置 Grand Theft Auto V(侠盗猎车手 5) steam 或者原装均可 numpy Pytorch(gp 版本) 推荐最新版本(0.40) torchvision GPU(推荐 GTX 960 及以上),我使用的 GTX 960 同时运行 GTA V 和 Actor-Critic 算法有点吃力 系统 Windows,因为MAC 以及 linux 上没有 GTA V ,我的另一个项目。 文件结构 constant 用于算法的一些常数,包括按键,日志,网络常量,游戏画面截取位置 model 网络,使用预训练的 ResNet 得到卷积特征的序列,然后进入 LSTM 得到策略函数和值函数。 train 训练过程 util 工具函数,包
2021-11-25 22:29:04 27KB Python
1
A2C 描述 这是使用OpenAI体育馆环境以PyTorch编写的的实现。 此实现包括卷积模型,原始A3C模型,完全连接的模型(基于Karpathy的Blog)和基于GRU的递归模型的选项。 BPTT 循环训练可以选择使用时间反向传播(BPTT),它可以在一系列状态而不是当前状态上建立梯度依存关系。 初步结果表明,使用BPTT不会提高训练效果。 有关两种培训方法的比较,请参见。 该算法在Pong-v0上进行了训练。 奖励图是在培训期间首次展示时收集的奖励的移动平均值。 对于Pong而言,奖励指标是每个游戏结束时收集的奖励的运行平均值,而不是完整的21分比赛。 这使最低奖励为-1,最大奖励为+1。 移动平均因子设置为0.99。 在Pong-v0上的GRU模型训练过程中,经过4000万个时间步的平均奖励图。 在使用反向传播穿越时间训练的Pong-v0上训练GRU模型的过程中,在400
2021-11-13 16:11:12 107KB Python
1
Actor-critic algorithms;Actor-critic algorithms;Actor-critic algorithms; Actor-critic algorithms;Actor-critic algorithms;Actor-critic algorithms
2021-11-11 16:06:03 2.26MB 强化学习
1
具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
这是论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》的pytorch复现,直接使用其开源环境Multi-Agent Particle Environment,运行main.py即可进行运行程序
SAC 使用Tensorflow的Soft Actor-Critic实现。 要求 Python3 依存关系 张量流 健身房[atari] 的OpenCVPython的 git + 用法 训练 $ python train.py [--render] 玩 $ python train.py [--render] [--load {path of models}] --demo 执行 这受到以下项目的启发。
2021-09-23 15:48:16 8KB Python
1
深度强化学习-分布式模块化框架 一个模块化框架,可实现即插即用的RL思想实验。 该系统是模块化的,具有针对演员,评论家,记忆,代理等的可重用类。 探索和学习在单独的Docker实例中作为单独的流程运行。 这样就可以运行多个分布式资源管理器。 这些组件在一个位置连接在一起,例如 , 。 急切地使用Tensorflow2。 跑 启动两个docker镜像,一个运行Explorer,另一个运行Learner。 scripts/both.sh 结果
2021-09-20 15:34:20 4.63MB JupyterNotebook
1