Reinforcement Learning - An Introduction 2nd 2017
2022-10-17 23:16:53 9.69MB RL
1
本文设计了一个自我监督的注意模块,该模块可以识别感兴趣的显着区域,而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中,可以直接即插即用。 注意模块学习的是前景注意掩码,而不是预定义的关键点数量。
2022-10-12 17:06:59 7.33MB 自注意力
1
dm_env :DeepMind RL环境API 该软件包描述了用于Python强化学习(RL)环境的界面。 它由以下核心组件组成: dm_env.Environment :RL环境的抽象基类。 dm_env.TimeStep :一个容器类,表示每个时间步(过渡)上环境的输出。 dm_env.specs :一个模块,包含用于描述环境消耗的动作的格式以及其返回的观察值,奖励和折扣的原语。 dm_env.test_utils :用于测试具体环境实现是否符合dm_env.Environment接口的工具。 请参阅的文档以获取有关环境接口的语义以及如何使用它的更多信息。 子目录还包含使用dm_env接口实现的RL环境的说明性示例。 安装 dm_env可以使用pip从PyPI安装: pip install dm-env 请注意,从1.4版开始,我们仅支持Python 3.6+。 您还
1
Reinforcement Learning: An Introduction Second edition, in progress November 5, 2017 Richard S. Sutton and Andrew G. Barto The text is now complete, except possibly for one more case study to be added to Chapter 16. The references still need to be thoroughly checked, and an index still needs to be added. Please send any errors to rich@richsutton.com and barto@cs.umass.edu. We are also very interested in correcting any important omissions in the \Bibliographical and Historical Remarks" at the end of each chapter. If you think of something that really should have been cited, please let us know and we can try to get it corrected before the nal version is printed. The MIT Press Cambridge, Massachusetts London, England
2022-09-15 09:55:26 10.96MB RL
1
DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1
多代理SAC 介绍 环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最高分后,连续100次以上)。 具体来说, 在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个代理商的得分。 这将产生2个(可能不同)的分数。 然后,我们取这两个分数中的最大值。 这为每个情节产生一个单一的分数。 当这些分数的平均值(超过100集)至少为+0.5时,就认为环境已解决。
1
Coursera作业 该存储库旨在帮助在学习过程中遇到困难的Coursera学习者。 测验和编程作业属于Coursera,请不要将其用于任何其他目的。 如有任何问题,请随时与我联系,我的电子邮件是 。 经济学院专业化高级机器学习 深度学习导论 Python数据科学导论 Python中的应用机器学习 大数据导论 大数据建模与管理系统 大数据交互与处理 文字检索和搜索引擎 文本挖掘和分析 数据挖掘中的模式发现 数据挖掘中的聚类分析 数据科学家的工具箱 R编程 获取和清理数据 算法工具箱 数据结构 图上的算法 字符串算法 神经网络与深度学习 改善深度神经网络的超参数调整,正则化和优化 构建机器学习项
1
Time-series-forecasting-via-deep-reinforcement-learning
2022-07-18 16:07:00 104KB 代码
1
Draft, Second edition, in progress. Richard S. Sutton and Andrew G. Barto
2022-07-14 18:34:50 8.76MB 强化学习 Sutton
1
Easy-RL 李宏幽默老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子例证解强化学习理论。某些老师经常会用玩Atari游戏的例子解释解解强化学习算法。如此,为了课程的补充,我们整理了周博磊老师的《强化学习纲要》,李科浇老师的《百度强化学习》。以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。 使用说明 第4章到第11章为的部分; 第1章和第2章根据整理而来; 第3章和第12章根据整理而来。 在线阅读(内容实时更新) 地址: : 内容导航 章节 习题 项目 算法代码实现一览 算法名称 相关论文材料 备注 进度 蒙特卡洛算法 好的 好的 好的 好的 DQN-cnn 与DQN索引使用了CNN而不是全链接网络 好的 好的 分层DQN 好的 好的 DDPG 好
1