PyTorch-ActorCriticRL
PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。
DDPG
是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。
政策估算(演员)
Actor网络由一个三层神经网络组成,该神经网络将状态输入,并输出应由Pi表示的动作(a ) 。
政策评估(严重)
批判网络由一个三层神经网络组成,该神经网络将状态(s)和相应的动作(a)输入,并输出由Q(s,a)表示的状态动作值函数。
演员优化
通过最小化损耗来优化策略:-和(-Q(s,a)) 。
批判性优化
通过最小化损耗来优化评论者:-L2 (r + gamma * Q(s1,
2021-09-09 16:40:34
6KB
Python
1