搜索【强化学习算法】的结果

reinforcement-learning:单智能体和多智能体强化学习算法的实现。的MATLAB-源码

强化学习作为我的论文的最后部分，“协作多智能体学习的方法和实现”，涉及从单一智能体到多智能体的RL研究，以及协作和协作多智能体学习的最新技术。的算法和实现，在MATLAB中完成了某些RL方法的实现。论文论文也被上传，其中包含参考文献。单人强化学习动态编程蒙特卡洛方法时差学习线性函数逼近深度Q网络具有线性函数逼近的策略梯度多智能体强化学习集中式Q学习滞后Q学习多代理演员批评

2021-05-22 13:16:32 4.39MB MATLAB

1

深度强化学习算法与应用研究现状综述

深度强化学习主要被用来处理感知-决策问题，已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法，详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理，并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后，对深度强化学习的算法和应用进行展望，针对一些未来的研究方向和研究热点给出了建议。

2021-05-21 15:18:32 2.92MB 深度强化学习 研究综述

1

DeepReinforcementLearning-DDPG-for-RoboticsControl：这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，以训练4自由度机械臂达到移动目标。动作空间是连续的，学习的特工为机器人输出扭矩以移动到特定目标位置-源码

DDPGforRoboticsControl 这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，用于训练4自由度机械臂以达到移动目标。动作空间是连续的，学习的代理会输出扭矩以使机器人移动到特定的目标位置。环境一个包含20个相同代理的，每个代理都有其自己的环境副本。在这种环境下，双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步，将提供+0.1的奖励。因此，座席的目标是在尽可能多的时间步中保持其在目标位置的位置。观察空间由33个变量组成，分别对应于手臂的位置，旋转，速度和角速度。每个动作是一个带有四个数字的向量，对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。解决环境您的特工平均得分必须为+30（超过100个连续剧集，并且超过所有特工）。具体来说，在每个情节之后，我们将每个代理商获得的奖励加起来（不打折），以获得每个

2021-04-29 11:38:55 20.38MB JupyterNotebook

1

imitation_learning：PyTorch实现的一些强化学习算法：优势演员评论（A2C），近距离策略优化（PPO），V-MPO，行为克隆（BC）。将添加更多算法-源码

模仿学习此仓库包含一些强化学习算法的简单PyTorch实现：优势演员评论家（A2C）的同步变体近端策略优化（PPO）-最受欢迎的RL算法，，，策略上最大后验策略优化（V-MPO）-DeepMind在其上次工作中使用的算法（尚不起作用...）行为克隆（BC）-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。为什么回购被称为“模仿学习”？当我开始这个项目并进行回购时，我认为模仿学习将是我的主要重点，并且无模型方法仅在开始时用于培训“专家”。但是，PPO实施（及其技巧）似乎比我预期的花费了更多时间。结果，现在大多数代码与PPO有关，但是我仍然对模仿学习感兴趣，并打算添加一些相关算法。当前功能目前，此仓库包含一些无模型的基于策略的算法实现：A2C，PPO，V-MPO和BC。每种算法都支持离散（分类，伯努利，GumbelSoftmax）和连续（贝塔，正态，tanh（正态））策略分布以及矢量或图像观察环境。 Beta和tanh（Normal）在我的实验中效果最好（在BipedalWalker和Huma

2021-02-02 16:36:47 11.42MB algorithm reinforcement-learning deep-learning deep-reinforcement-learning

1

强化学习matlab代码

强化学习算法，实现强化学习对网络资源的分配，目的是频谱利用最大化

2019-12-21 19:24:49 6KB 强化学习算法

1

Reinforcement Learning-An Introduction by Sutton R S，Barto A G

强化学习算法的入门资料，有利于大家学习强化学习算法

2019-12-21 18:49:27 5.45MB 强化学习算法

1

个人信息

热门下载

最新下载

其他资源