我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多 任务算法可以“端到端”学习策略:直接从原始像素输入。
2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制
1
自动驾驶中的深度强化学习 最适合离散操作:4名工人,学习率1e-4 无法使其在连续动作空间中正常工作; 它产生的动作出了问题 A3C创意 总览 人工神经网络的架构
2021-12-27 23:11:40 224.81MB python multi-threading deep-neural-networks latex
1
强化学习范式原则上允许复杂行为 直接从简单的奖励信号中学习。然而,在实践中,情况确实如此 常见的手工设计奖励功能,以鼓励特定的 解决方案,或从演示数据中导出。本文探讨了如何丰富 环境有助于促进复杂行为的学习。明确地 我们在不同的环境环境中培训代理人,并发现这鼓励了他们 在一系列任务中表现良好的稳健行为的出现。 我们为运动演示了这一原则——众所周知的行为 他们对奖励选择的敏感度。我们在一个平台上训练几个模拟物体 使用一个简单的奖励功能,可以设置各种具有挑战性的地形和障碍 基于向前的进展。使用一种新的可伸缩策略梯度变体 强化学习,我们的特工可以根据需要学习跑、跳、蹲和转身 在没有明确的基于奖励的指导的环境下。对……的视觉描绘 学习行为的要点可以在本视频中查看。
2021-12-24 12:08:07 2.23MB 深度学习 强化学习 机器人 运动控制
1
RL4StockTrading 使用深度强化学习进行股票交易
2021-12-23 11:06:52 4.97MB Python
1
DRL_GBI 我项目的代码和相关工作-结合(深度)强化学习和基于目标的投资 该项目已被选为2020年Spring商务毕业项目中的顶级项目。 还可以在Hanlon实验室网站上找到简短说明: : DDPG的代码设计 关于: 到目前为止,我已经上传了一个目标的DDPG代码。 我主要使用Stable_Baselines实现DDPG,并根据Gym界面自定义环境,以解决退休计划中指定的投资组合优化问题。 通过设置步长,我可以定期调整重量。 用法: 运行“ main_ddpg.py”并查看结果。 或者只是检查文件“结果”即可快速查看我的图。 我使用Callback监视我的训练并加载best_model来绘制结果。 数据集: 根据霍姆斯库博士的建议,我使用的投资组合包括: 4种股票指数:iShares罗素中型ETF,iShares罗素200强ETF,S&P 500指数和SPDR MSCI
2021-12-23 11:05:51 4.96MB R
1
强化学习工具箱(DRLToolbox) 概述 该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱,提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。 配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行? 运行run_window.py可启动窗口 启动界面 主界面 设置界面 其他功能详见项目大报告 什么是强化学习? 详见报告 最终表现 以贪吃蛇为例,经过超过500万次训练(超过48小时),一共完成36171局,每局分数如
2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python
1
本文转自『深度强化学习实验室』 NeurIPS(前称NIPS)可谓人工智能年度最大盛会。每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大会的技术往往这未来几年就会演变成真正的研究甚至应用成果。NIPS2019大会将在12月8日-14日在加拿大温哥华举行,据官方统计消息,NeurIPS今年共收到投稿6743篇,再次打破了历年来的接收记录。其中接收论文1429篇。论文发表机构统计 Google共179篇 其中Deepmind-53篇 Google-Brain-Research-126篇  NVIDIA上榜9篇 斯坦福上榜79篇 MIT上榜77篇 卡耐基梅隆上榜75篇
2021-12-15 22:51:00 1.13MB rl 代理模式 优化策略
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
强化学习对话生成 应用深度强化学习进行对话生成。 又名聊天机器人
2021-12-07 15:04:42 105.86MB 系统开源
1
2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1