这个资源是一个包含了使用 PyTorch 实现的11种常见在线强化学习算法的代码集合。每个算法都有独立的文件夹,可以单独运行并测试相应算法在不同环境中的性能。以下是资源中包含的算法:
1、Q-learning
2、SARSA
3、DQN (Deep Q-Network)
4、Double-DQN
5、Dueling-DQN
6、PG (Policy Gradient)
7、AC (Actor-Critic)
8、PPO (Proximal Policy Optimization)
9、DDPG (Deep Deterministic Policy Gradient)
10、TD3 (Twin Delayed DDPG)
11、SAC (Soft Actor-Critic)
1