流行的无模型强化学习算法 PyTorch和Tensorflow 2.0在Openai体育馆环境和自行实现的Reacher环境中均实现了最新的无模型强化学习算法。 算法包括软参与者关键(SAC),深度确定性策略梯度(DDPG),双延迟DDPG(TD3),参与者关键(AC / A2C),近端策略优化(PPO),QT-Opt(包括交叉熵( CE)方法) , PointNet ,运输商,循环策略梯度,软决策树等。 请注意,此存储库更多是我在研究和实施期间实施和测试的个人算法集合,而不是正式的开放源代码库/软件包以供使用。 但是,我认为与他人分享它可能会有所帮助,并且我希望对实现进行有益的讨论。 但是我没有花太多时间在清理或构建代码上。 您可能会注意到,每种算法可能都有几种实现方式,在此我特意展示所有这些方式,供您参考和比较。 此外,此存储库仅包含PyTorch实施。 对于RL算法的官方库,
1
[PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判(A3C) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸异步方法用于深强化学习引入异步优势演员,评论家(A3C)算法。 样品结果 动机 在我实施该项目之前,有多个存储库可以很好地重现本文的结果,这些存储库可以在Tensorflow,Keras和Pytorch等不同的常见深度学习框架中进行。 我认为,其中大多数都很棒。 但是,它们似乎在许多方面都过于复杂,包括图像的预处理,环境设置和权重初始化,这使用户的注意力从更重要的事情上转移了。 因此,我决定编写更简洁的代码,以简化不重要的部分,同时仍然严格
2023-02-06 16:42:14 300.86MB python mario reinforcement-learning ai
1
状态:存档(代码按原样提供,预计不会更新) 多代理粒子环境 一个简单的多主体粒子世界,具有连续的观察和离散的动作空间,以及一些基本的模拟物理学。 用于中的 。 入门: 要安装,请cd进入根目录,然后键入pip install -e . 要以交互方式查看移至地标场景(请参阅./scenarios/中的其他内容),请执行以下操作: bin/interactive.py --scenario simple.py 已知依赖项:Python(3.5.4),OpenAI Gym(0.10.5),numpy(1.14.5) 要使用这些环境,请在make_env.py查看将其导入的代码。 代码结构 make_env.py :包含用于将多代理环境作为类似OpenAI Gym的对象导入的代码。 ./multiagent/environment.py :包含用于环境模拟的代码(交互物理学, _step
2022-12-01 17:13:51 32KB paper Python
1
基于bp神经网络的adp小程序,无具体数值,需自行添加,包含actor网络和critic网络
2022-09-28 15:45:11 47KB actor-critic criticactor ADP神经网络 adp
深度强化学习的原理及其分类价值学习(DQN)、策略学习、Actor-critic原理讲解
2022-08-30 21:05:43 4.61MB
1
【翻译原创】对on-policy deep actor-critic算法有影响的参数
2022-07-16 09:07:06 1.57MB 强化学习 算法 python 经验分享
1
矩阵指针Matlab代码L2RPN-使用-A3C 使用 Actor-Critic 框架进行 L2RPN 挑战 ( & ) 的强化学习。 使用此代码训练的代理是挑战的获胜者之一。 代码使用pypownet环境()。 该代码是在 LGPLv3 许可下发布的。 要求 Python >= 3.6 凯拉斯 pypownet 虚拟环境 (conda/venv) 推荐 Pypownet 安装和文档: 文件说明 PDF文件 Amar_L2RPN_IJCNN_git.pdf - 在 IJCNN-2019 的 L2RPN 研讨会上介绍该方法。 总结方法和培训方法中的想法。 Numpy 文件 valid_actions_array_uniq.npz - 有效唯一动作矩阵 valid_actions_masking_subid_perm.npz - 将变电站 Id 映射到用于屏蔽参与者输出的唯一有效动作的矩阵 Python文件 valid_switching_controls.py - 创建上述 numpy 文件的 python 文件 pypow_14_a3c_final.py - 用于使用 A3C 训练演员
2022-05-21 12:56:16 44.1MB 系统开源
1
基于李宏毅课程总结
2022-05-06 10:35:16 599KB PPO RL 强化学习
1
基于李宏毅的课程
2022-05-06 10:33:19 1.05MB PPO RL
1