PyTorch实现软演员- 评论家(SAC),双胞胎延迟DDPG(TD3),演员评论家(AC / A2C),近端策略优化(PPO),QT-Opt,PointNet
流行的无模型强化学习算法
PyTorch 和 Tensorflow 2.0 在 Openai 健身房环境和自我实现的 Reacher 环境中实现了最先进的无模型强化学习算法。
算法包括:
演员兼评论家 (AC/A2C);
软演员-评论家 (SAC);
深度确定性策略梯度 (DDPG);
双延迟 DDPG (TD3);
近端策略优化;
QT-Opt(包括交叉熵(CE)方法);
点网;
运输机;
经常性政策梯度;
软决策树;
概率专家混合;
QMIX
Actor-Critic (AC/A2C);
Soft Actor-Critic (SAC);
Deep Deterministic Policy Gradient (DDPG);
Twin Delayed DDPG (TD3);
Proximal Policy Optimization (PPO);
QT-Opt (including Cross-entropy (CE)