第9课:强化学习与DQN.pdf
2021-12-15 18:11:33 5.97MB 机器学习
1
关于强化学习dqn的相关代码,适合初学者认识和了解强化学习dqn
2021-12-14 18:30:34 19KB dqn
1
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
关于categorical dqn的例子,适合初学者对深度强化学习categorical dqn的认识和了解
2021-11-11 13:51:37 109KB categorical dqn
1
深度学习 通过深度强化学习制作简单的游戏AI简介 Keras和Gym中最小和简单的深度Q学习实现。 不到100行代码! 博客文章包含dqn.py代码的说明。 为了方便起见,我对该存储库进行了一些细微的调整,例如load和save功能。 我还使memory成为双端队列,而不只是列表。 这是为了限制内存中元素的最大数量。 训练对于dqn.py可能是不稳定的。 ddqn.py减轻了此问题。 我将在下一篇文章中介绍ddqn 。
1
您是否希望RL代理商在Atari上继续前进? 彩虹就是您所需要的! 这是从DQN到Rainbow的分步教程。 每章都包含理论背景和面向对象的实现。 只需选择您感兴趣的任何主题,然后学习! 您甚至可以在智能手机上使用Colab立即执行它们。 如果您有任何改善建议,请随时提出问题或提出要求。 :) 如果您想要有关策略渐变方法的教程,请参阅。 内容 DQN [ ] [ ] DoubleDQN [ ] [ ] PriorityizedExperienceReplay [ ] [ ] DuelingNet [ ] [ ] NoisyNet [ ] [ ] CategoricalDQN [ ] [ ] N-stepLearning [ NBViewer ] [ Colab ] 彩虹[ NBViewer ] [ Colab ] 先决条件 此存储库已在Anac
2021-11-03 12:21:10 739KB reinforcement-learning rainbow pytorch dqn
1
关于rainbow dqn的例子,适合初学者对深度强化学习rainbow dqn.的认识和了解
2021-11-03 11:15:29 91KB rainbow dqn.
1
经过研究人员和金融专家对股票市场预测的多年研究之后,似乎没有确定的方法可以既准确又持续地预测股票价格。 这是由于股票走势的不确定性以及决定市场表现的众多参数所致。 人们已经研究了许多技术来预测股市价格。 另外,已经进行了各种比较研究以找到可以帮助交易者做出决定的最佳技术。 本文提出将Rainbow DQN,LSTM和GRU等集成技术用于实时股票市场预测和指示买/卖信号。 仔细检查了所用这些技术的结果,以检查是否过度拟合。 使用准确性,投资回报率来评估技术的性能。 很少有人使用MACD和RSI等著名指标来验证结果。 测试在NIFTY50,Microsoft和Google上进行,并以1分钟为间隔构建实时数据。
2021-11-03 10:24:46 1.4MB Rainbow Deep Q Network
1
DQN-雅达利 深度Q网络实现。 实施从论文《和得出。 结果 游戏视频-DQN Nature Paper 每集奖励 实施摘要 DQN自然架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:32个8×8滤光片,步幅为4 转换层2:64个4×4步幅的滤镜 转换层3:64个3×3滤光片,步幅为1 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 DQN Neurips架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:16个8×8滤光片,步幅为4 转换层2:32个4×4步幅的滤镜 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 其他参数 优化器:RMSProp 批量大小:32 电子贪婪:0.1 怎么跑 创建一个新环境 例子: conda
2021-10-28 09:30:51 19.97MB machine-learning reinforcement-learning pong pytorch
1
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(DQN)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
1