Reinforcement learning an introduction中文pdf
2021-08-25 14:11:09 2.74MB Reinforcementl 中文
1
Reinforcement Learning:An Introduction PDF文档附本书源代码
2021-08-25 12:29:45 44.62MB Reinforcemen
1
POMDP:基于部分可观察的马尔可夫决策过程实现RL算法
1
静脉-健身房 Veins-Gym将Veins模拟导出为Open AI Gyms。 这使得强化学习算法的应用能够解决VANET域中的问题,特别是诸如Tensorflow或PyTorch之类的流行框架。 执照 该项目根据GNU通用公共许可证2.0的条款获得许可。
2021-08-18 12:29:36 16KB simulator reinforcement-learning openai-gym sumo
1
零 该存储库是MuZero算法的Python实现。 它基于和描述Muzero框架的。 神经计算是通过Tensorflow实现的。 您可以轻松地训练自己的MuZero,特别是针对一个播放器和非基于图像的环境(例如 )。 如果您希望在其他类型的环境上训练Muzero,则可以对该代码库进行少量修改即可使用。 免责声明:此代码是早期研究代码。 这意味着: 可能存在无提示的错误。 它可能无法在其他环境或其他超参数上可靠地工作。 相当缺乏代码质量和文档,并且许多代码可能仍感觉“正在进行中”。 培训和测试管道不是很先进。 依存关系 我们使用以下代码运行此代码: conda4.7.12 Python 3.7 Tensorflow 2.0.0 脾气暴躁的1.17.3 训练您的MuZero 此代码必须从muzero.py的main函数运行(不要忘记首先配置conda环境)。 训练Cart
1
这本书代表了当前世界在Reinforcement Learning领域的研究前沿
2021-08-12 11:49:42 11.62MB 增强学习
1
[ICML 2021] DouZero:用Self-Play深度强化学习掌握DouDizhu DouZero是加强学习框架(),在中国最流行的纸牌游戏。 这是一个脱落类型的游戏,玩家的目标是在其他玩家之前清空自己手中的所有牌。 斗地主是一个非常具有挑战性的领域,竞争、协作、信息不完善、状态空间大,尤其是大量可能的行为,其中法律行为在不同回合之间差异很大。 DouZero 由 AI Platform, Kwai Inc. (快手) 开发。 在线演示: : :loudspeaker: 新版附标(叫牌版): ://www.douzero.org/bid 在本地运行演示: : 论文: : 相关项目: 相关资源: Awesome-Game-AI Google Colab: jupyter 笔记本 社区: Slack :在DouZero频道讨论。 QQ群:加入我们的QQ群819204202,如果已
2021-08-08 21:44:19 80KB reinforcement-learning poker game-ai doudizhu
1
AndroidEnv - Android 学习环境 是一个 Python 库,可将设备公开为强化学习 (RL) 环境。 该库提供了一个灵活的平台,用于在 Android 操作系统之上定义自定义任务,包括任何 Android 应用程序。 代理通过通用操作界面(触摸屏)与设备交互,方法是向系统发送本地化的触摸和抬起事件。 该库处理这些事件并返回由特定提供的像素观察和奖励。 例如,可能会根据研究目的和用户配置任务的方式,对成功向下滚动页面、发送电子邮件或在游戏中获得某些分数等事件给予奖励。 指数 环境特点 有许多方面使 AndroidEnv 成为强化学习研究具有挑战性但合适的环境: AndroidEnv 允许代理与全球数十亿用户每天使用的系统进行交互,AndroidEnv 为 RL 代理提供了一个平台,用于导航、学习任务并在现实世界中产生直接影响。 环境包裹了一个模拟的 Android 设备
2021-08-04 14:05:41 172.59MB android reinforcement-learning Python
1
城流 CityFlow 是一种用于大规模城市交通场景的多智能体强化学习环境。 检查这些功能! 一种微观交通模拟器,可模拟每辆车的行为,提供最高级别的交通演变细节。 支持灵活定义路网和交通流 为强化学习提供友好的python接口 快速地! 精心设计的数据结构和多线程仿真算法。 能够模拟城市范围内的交通。 请参阅与 SUMO 的性能比较。 具有不同线程数(1、2、4、8)和 SUMO 的 CityFlow 之间的性能比较。 从小型 1x1 网格路网到城市级 30x30 路网。 当您需要通过 python API 与模拟器交互时,速度会更快。 截屏 使用 CityFlow 的特色研究和项目 链接 WWW 2019 演示文稿 主页 文档和快速入门 码头工人 [1] 相扑首页 [2] 天让智能首页
1
强化学习圣经书,完整Python代码实现
2021-08-03 17:09:54 537KB python 强化学习 Sutton
1