软件介绍: 最新英文原版Reinforcement Learning: An Introduction(2nd Sutton),是强化学习必读书籍,Sutton力作,需要的可以下载。
2021-06-17 10:47:52 8.27MB 其他资源
1
sutton的强化学习第二版的答案
2021-06-12 14:14:53 2.28MB 强化学习
1
文献翻译,格式做的比较认真,公式图片都做了翻译,格式符合规范。适用于作业,课设,毕设文献翻译
2021-06-11 13:10:43 696KB 翻译 DQN 深度学习 强化学习
1
状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python <= 3.6 张量板 体育馆> = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3
1
项目3:合作与竞争 介绍 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 下图显示了最终的奖励进度。 环境在1820集中得到解决 算法: 为了解决此环境,我实现了Multi-DDPG算法。 实现的功能如下: 每个特工都有独立的演员和评论家 集中培训:每个代理的批评者不仅将自己的演员的行为和状态作为输入,而且还将所有其他代理的状态和行为作为输入。 由于在测试过程中仅使用参与者,并且参与者仅取决于相应参与者的状态,因此代理可以自由地学习自己的奖励结构。 下图[来源: :
2021-06-09 20:21:22 45.93MB reinforcement-learning robotics tennis agents
1
Mathwork公司官方推出的《利用MATLAB进行强化学习》的系列电子书,个人对其进行了翻译。英文原版电子书与翻译后的电子书均在压缩包中,便于初学者了解强化学习以及如何利用MATLAB进行强化学习的一些基本知识。
2021-06-07 10:47:17 66.1MB MATLAB RL
1
Richard S. Sutton 教授的经典教材《增强学习导论》(Reinforcement Learning: An Introduction)第二版,2018年在线草稿版
2021-06-05 10:33:37 38.03MB 强化学习 Richard S. S
1
增强学习导论 强化学习导论 Reinforcement learning an introduction 中文版
2021-06-05 09:03:57 2.73MB 强化学习导论 Reinforcement introduction
Algorithms for Reinforcement Learning PDF+PPT
2021-06-04 09:10:59 14.65MB 增强学习
1
计算机视觉Github开源论文
2021-06-03 09:09:11 2.91MB 计算机视觉
1