上传者: 42153691
|
上传时间: 2021-11-19 17:06:34
|
文件大小: 1.9MB
|
文件类型: -
RLContinuousActionSpace
在连续状态和动作空间中进行强化学习。 DDPG:深度确定性策略梯度和A3C:异步Actor-Critic代理
注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。
1°DDPG:
基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型:
OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。
Models.py:演员,评论家和目标网络的神经网络
演员模型
批评模型
main.py:配置,训练,测试,显示,存储,加载
ReplayBuffer.py