RL4StockTrading 使用深度强化学习进行股票交易
2021-12-23 11:06:52 4.97MB Python
1
DRL_GBI 我项目的代码和相关工作-结合(深度)强化学习和基于目标的投资 该项目已被选为2020年Spring商务毕业项目中的顶级项目。 还可以在Hanlon实验室网站上找到简短说明: : DDPG的代码设计 关于: 到目前为止,我已经上传了一个目标的DDPG代码。 我主要使用Stable_Baselines实现DDPG,并根据Gym界面自定义环境,以解决退休计划中指定的投资组合优化问题。 通过设置步长,我可以定期调整重量。 用法: 运行“ main_ddpg.py”并查看结果。 或者只是检查文件“结果”即可快速查看我的图。 我使用Callback监视我的训练并加载best_model来绘制结果。 数据集: 根据霍姆斯库博士的建议,我使用的投资组合包括: 4种股票指数:iShares罗素中型ETF,iShares罗素200强ETF,S&P 500指数和SPDR MSCI
2021-12-23 11:05:51 4.96MB R
1
强化学习工具箱(DRLToolbox) 概述 该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱,提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。 配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行? 运行run_window.py可启动窗口 启动界面 主界面 设置界面 其他功能详见项目大报告 什么是强化学习? 详见报告 最终表现 以贪吃蛇为例,经过超过500万次训练(超过48小时),一共完成36171局,每局分数如
2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python
1
本文转自『深度强化学习实验室』 NeurIPS(前称NIPS)可谓人工智能年度最大盛会。每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大会的技术往往这未来几年就会演变成真正的研究甚至应用成果。NIPS2019大会将在12月8日-14日在加拿大温哥华举行,据官方统计消息,NeurIPS今年共收到投稿6743篇,再次打破了历年来的接收记录。其中接收论文1429篇。论文发表机构统计 Google共179篇 其中Deepmind-53篇 Google-Brain-Research-126篇  NVIDIA上榜9篇 斯坦福上榜79篇 MIT上榜77篇 卡耐基梅隆上榜75篇
2021-12-15 22:51:00 1.13MB rl 代理模式 优化策略
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
强化学习对话生成 应用深度强化学习进行对话生成。 又名聊天机器人
2021-12-07 15:04:42 105.86MB 系统开源
1
2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
基于深度强化学习卡尔曼滤波锂离子电池 SOC 估计.pdf
2021-12-04 11:01:36 739KB 算法 互联网 资源
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1