2020年11月22日更新 各位, 2020-11-17:我注意到人们正在等待代码。 正如我在某些电子邮件中所说的那样,论文终于在我还是腾讯的时候完成了。 2020年5月,我从腾讯离开,加入了深圳大学。 如您所知,对于一家商业公司,我将所有材料留在腾讯内部。 非常抱歉,无法再提供原始的MATLAB代码。 我将尝试最近在Pytorch中重新实现它。 谢谢。 2020-11-22:上传了pytorch实施。 再次抱歉,我无法提供带有SARSA的原始MATLAB实现。 当我们小组致力于A3C框架的研究工作时,我使用A3C框架实施EV充电环境和功能状态,以提高实施效率。 结果,尽管结果与原始结果略有不同,但快速收敛仍然很重要。 就个人而言,我们的主要贡献是问题的提出和解决,可以在env()函数中找到。 因此,让我在这里停止,再次感谢您的关注。 引用这项工作 S. Wang,S。Bi和YJ Zh
2021-12-21 13:13:43 3.3MB Python
1
Reinforcement Learning An Introduction 第二版,Richard S. Sutton and Andrew G. Barto等著,548页,非扫描版
2021-12-20 12:34:26 85.29MB PDF书籍
1
强化学习工具箱(DRLToolbox) 概述 该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱,提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。 配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行? 运行run_window.py可启动窗口 启动界面 主界面 设置界面 其他功能详见项目大报告 什么是强化学习? 详见报告 最终表现 以贪吃蛇为例,经过超过500万次训练(超过48小时),一共完成36171局,每局分数如
2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python
1
使用Python的强化学习算法 这是Packt发行的《 的代码库。 学习,理解和开发用于应对AI挑战的智能算法 这本书是关于什么的? 强化学习(RL)是AI的流行和有前途的分支,涉及制作更智能的模型和代理,这些模型和代理可以根据不断变化的需求自动确定理想的行为。 本书将帮助您掌握RL算法并在构建自学习代理时了解其实现。 本书首先介绍了在RL环境中工作所需的工具,库和设置,然后介绍了RL的组成部分,并深入研究了基于价值的方法,例如Q学习和SARSA算法的应用。 您将学习如何结合使用Q学习和神经网络来解决复杂的问题。 此外,在继续使用DDPG和TD3确定性算法之前,您将研究策略梯度方法TRPO和PPO,以提高性能和稳定性。 本书还介绍了模仿学习技术的工作原理以及Dagger如何教代理人驾驶。 您将发现进化策略和黑盒优化技术,并了解它们如何改善RL算法。 最后,您将掌握诸如UCB和UCB1
2021-12-17 10:05:28 89KB Python
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
自主无人机进行对象跟踪 任务是创建一种自动驾驶无人机,该无人机能够将目标对象保持在其视线中央的某种受限运动下,从而有效地对其进行跟踪。 通过使用模拟器获取被跟踪对象的实时位置(在AirSim中为Car),可以完成对象跟踪。 这种情况可能不切实际,因为在大多数情况下都不可能获得被跟踪对象的精确位置,但是足以验证受约束运动中的自动跟踪的假设。 但是,使用计算机视觉和基本几何形状的技术,可以在已知高度,标高和焦距的情况下从捕获的帧中估计对象的位置。 依存关系 张量流 OpenCV(可选) AirSim(定制货叉) 安装说明 运行git clone --recursive https://github.com/kshitiz38/autonomous_drone_for_tracking.git 注意:如果未使用--recursive标志进行克隆,请手动运行以下代码git submodule
2021-12-12 18:21:58 13.26MB tracking simulator reinforcement-learning multirotor
1
乌鸦-运输网络 Ravens是PyBullet中模拟任务的集合,用于学习基于视觉的机器人操作,重点是拾取和放置。 它具有一个类似于Gym的API,具有10个桌面重排任务,每个任务都有(i)提供专家演示的脚本化oracle(用于模仿学习),以及(ii)提供部分学分的奖励功能(用于强化学习)。 (a)插入方块:拿起L形红色方块并将其放入L形夹具中。 (b)放在绿色中:拿起红色方块,将它们放入其他物体中的绿色碗中。 (c)河内塔:将磁盘从一个塔顺序移动到另一个塔-只有较小的磁盘可以位于较大的磁盘之上。 (d) align-box-corner :拿起随机大小的盒子,将其一个角对准桌面上的L形标记。 (e) stack-block-pyramid :按彩虹色顺序依次将6个块堆叠为3-2-1的金字塔。 (f)码垛箱:拿起均质的固定尺寸的箱,并将它们堆放在转盘上。 (g)组装工具包:拿起不同的物体并将
1
文字世界 基于文本的游戏生成器和可扩展的沙箱学习环境,用于培训和测试强化学习(RL)代理。 另请访问以获取有关TextWorld及其创建者的更多信息。 对TextWorld有疑问或反馈吗? 将它们发送到或使用上面列出的Gitter频道。 安装 TextWorld需要Python 3,并且目前仅支持Linux和macOS系统。 对于Windows用户,可以将docker用作解决方法(请参阅下面的Docker部分)。 要求 TextWorld的本地组件需要一些系统库。 在基于Debian / Ubuntu的系统上,可以使用以下命令安装它们 sudo apt update && sudo apt install build-essential libffi-dev python3-dev curl git 在macOS上, brew install libffi curl git 注意:我们
1
多智能体深度强化学习TensorFlow代码实现,有环境和演示实例
2021-12-10 16:12:12 9.55MB 强化学习 多智能体
1