流行的无模型强化学习算法 PyTorch和Tensorflow 2.0在Openai体育馆环境和自行实现的Reacher环境中均实现了最新的无模型强化学习算法。 算法包括软参与者关键(SAC),深度确定性策略梯度(DDPG),双延迟DDPG(TD3),参与者关键(AC / A2C),近端策略优化(PPO),QT-Opt(包括交叉熵( CE)方法) , PointNet ,运输商,循环策略梯度,软决策树等。 请注意,此存储库更多是我在研究和实施期间实施和测试的个人算法集合,而不是正式的开放源代码库/软件包以供使用。 但是,我认为与他人分享它可能会有所帮助,并且我希望对实现进行有益的讨论。 但是我没有花太多时间在清理或构建代码上。 您可能会注意到,每种算法可能都有几种实现方式,在此我特意展示所有这些方式,供您参考和比较。 此外,此存储库仅包含PyTorch实施。 对于RL算法的官方库,
1
相扑 SUMO-RL通过用于交通信号控制的提供了一个简单的界面来实例化强化学习环境。 主类继承了的 。 如果使用参数'single-agent = True'实例化,则其行为类似于来自的常规 。 负责使用 API检索信息并在交通信号灯上。 该存储库的目标: 提供一个简单的界面,以与使用SUMO的交通信号控制强化学习一起使用 支持Multiagent RL 与gym.Env和流行的RL库(例如和 易于定制:状态和奖励定义易于修改 安装 安装最新版本的SUMO: sudo add-apt-repository ppa:sumo/stable sudo apt-get update sudo apt-get install sumo sumo-tools sumo-doc 不要忘记设置SUMO_HOME变量(默认的sumo安装路径为/ usr / share / sumo) ec
2021-08-26 13:54:45 583KB reinforcement-learning gym sumo rl-algorithms
1