#6.3_A3C_(Asynchronous_Advantage_Actor-Critic)_(强化学习_Reinforceme
2021-09-01 21:00:30 64.32MB 学习资源
#6.1_Actor_Critic_演员评论家_(强化学习_Reinforcement_Learning_教学)
2021-09-01 21:00:29 32.33MB 学习资源
附件为policy gradient,actor critic相关的基础代码,可以跑的通,有助于对policy gradient,actor critic, advantage actor critic三种算法的认识和了解
2021-08-22 21:11:26 3KB policygradient actorcritic
1
代码源自《Learning to Dispatch for Job Shop scheduling via Deep Reinforcemnet Learning》
1
这是MADDPG算法的原始论文。MADDPG算法是一种非常优秀的多智能体强化学习算法,感兴趣的可以下载下来看看
2021-08-11 20:07:04 1.44MB 机器学习 强化学习 深度学习 MADDPG
1
Soft Actor-Critic(SAC)算法tensorflow实现,SAC是深度强化学习中对于连续动作控制的又一经典。
2021-07-26 20:10:17 19KB 强化学习
1
状态:存档(代码按原样提供,预计不会更新) 多代理深度确定性策略梯度(MADDPG) 这是用于实现论文中提出的MADDPG算法的代码: 。 它被配置为与一起运行。 注意:自原始论文以来,此代码库已进行了重组,结果可能与论文中所报告的有所不同。 更新:可以在找到策略集合和策略估计的原始实现。 该代码按原样提供。 安装 要安装,请cd进入根目录,然后键入pip install -e . 已知依赖项:Python(3.5.4),OpenAI Gym(0.10.5),tensorflow(1.8.0),numpy(1.14.5) 案例研究:多代理粒子环境 我们在这里演示如何将代码与结合使用。 按照README文件的说明下载并安装MPE代码。 确保已将multiagent-particle-envs添加到您的PYTHONPATH (例如, ~/.bashrc或~/.bash_profile
2021-06-01 11:07:21 16KB paper 附件源码 文章源码
1
多代理深确定性策略梯度 多主体深度确定性策略梯度(MADDPG)算法的Pytorch实现 这是我在论文中提出的算法的实现:“针对混合合作竞争环境的多主体Actor评论家”。 您可以在这里找到本文: : 您将需要安装多代理粒子环境(MAPE),可以在这里找到: : 确保创建具有MAPE依赖项的虚拟环境,因为它们有些过时了。 我还建议使用PyTorch 1.4.0版运行此程序,因为最新版本(1.8)似乎与我在计算批评者损失时使用的就地操作存在问题。 将主存储库克隆到与MAPE相同的目录中可能是最容易的,因为主文件需要该软件包中的make_env函数。 可以在以下位置找到本教程的视频: :
1
Connecting Generative Adversarial Network and Actor-Critic Methods.pdf
2021-04-09 17:12:20 125KB 强化学习 Actor-Critic GAN
1
由于实验室要求每周PPT分享汇报,在这一过程中,需要花费时间去整理 强化学习,深度学习,Actor-critic基本知识点,耗时较长,因此将相关PPT上传,供有需要的游客查阅。
2021-02-26 20:05:54 2.6MB 深度学习 强化学习 Actor-critic
1