【jupyter notebook】强化学习中的蒙特卡洛方法-算法实现笔记
2022-10-17 13:05:34 2.22MB MC 蒙特卡洛
1
【jupyter notebook】强化学习中的时间差分算法实现笔记
2022-10-17 13:05:33 1.24MB TD 强化学习 时间差分
1
AI-奥林匹克·相扑比赛基于规则的智能体和基于强化学习的智能体解决方案,该方案训练出的智能体能进入对战排行榜前十。基于代码实现的规则,能进入排行榜前三。 1 手动提取特征(manual feature extraction) 2 重新封装环境 3 训练表现
2022-10-16 22:08:12 7.81MB 强化学习 AI-奥林匹克 相扑比赛 PPO
1
我下载了一些多任务强化学习的文章,并且将其翻译成中文了。
2022-10-13 21:05:07 49.28MB
1
我将最近几年的多智能体强化学习的研究文献下载下来,并且翻译成中文了。大家可以借鉴一下
2022-10-13 17:05:48 35.93MB
1
强化学习专栏中学徒学习的配套论文
2022-10-11 12:05:47 226KB
1
Github课程强化学习实践
2022-10-10 13:41:26 8.59MB Python开发-机器学习
1
dm_env :DeepMind RL环境API 该软件包描述了用于Python强化学习(RL)环境的界面。 它由以下核心组件组成: dm_env.Environment :RL环境的抽象基类。 dm_env.TimeStep :一个容器类,表示每个时间步(过渡)上环境的输出。 dm_env.specs :一个模块,包含用于描述环境消耗的动作的格式以及其返回的观察值,奖励和折扣的原语。 dm_env.test_utils :用于测试具体环境实现是否符合dm_env.Environment接口的工具。 请参阅的文档以获取有关环境接口的语义以及如何使用它的更多信息。 子目录还包含使用dm_env接口实现的RL环境的说明性示例。 安装 dm_env可以使用pip从PyPI安装: pip install dm-env 请注意,从1.4版开始,我们仅支持Python 3.6+。 您还
1
源码基于numpy和pytorch,包含各类传统的强化学习算法,可以用于入门学习和非专业领域快速应用。
2022-10-07 21:05:40 235.2MB 强化学习 深度学习 入门
1
强化学习.zip2022.10.3
2022-10-03 19:04:11 17.83MB 强化学习
1