流行的无模型强化学习算法 PyTorch和Tensorflow 2.0在Openai体育馆环境和自行实现的Reacher环境中均实现了最新的无模型强化学习算法。 算法包括软参与者关键(SAC),深度确定性策略梯度(DDPG),双延迟DDPG(TD3),参与者关键(AC / A2C),近端策略优化(PPO),QT-Opt(包括交叉熵( CE)方法) , PointNet ,运输商,循环策略梯度,软决策树等。 请注意,此存储库更多是我在研究和实施期间实施和测试的个人算法集合,而不是正式的开放源代码库/软件包以供使用。 但是,我认为与他人分享它可能会有所帮助,并且我希望对实现进行有益的讨论。 但是我没有花太多时间在清理或构建代码上。 您可能会注意到,每种算法可能都有几种实现方式,在此我特意展示所有这些方式,供您参考和比较。 此外,此存储库仅包含PyTorch实施。 对于RL算法的官方库,
1
[PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判(A3C) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸异步方法用于深强化学习引入异步优势演员,评论家(A3C)算法。 样品结果 动机 在我实施该项目之前,有多个存储库可以很好地重现本文的结果,这些存储库可以在Tensorflow,Keras和Pytorch等不同的常见深度学习框架中进行。 我认为,其中大多数都很棒。 但是,它们似乎在许多方面都过于复杂,包括图像的预处理,环境设置和权重初始化,这使用户的注意力从更重要的事情上转移了。 因此,我决定编写更简洁的代码,以简化不重要的部分,同时仍然严格
2023-02-06 16:42:14 300.86MB python mario reinforcement-learning ai
1
状态:存档(代码按原样提供,预计不会更新) 多代理粒子环境 一个简单的多主体粒子世界,具有连续的观察和离散的动作空间,以及一些基本的模拟物理学。 用于中的 。 入门: 要安装,请cd进入根目录,然后键入pip install -e . 要以交互方式查看移至地标场景(请参阅./scenarios/中的其他内容),请执行以下操作: bin/interactive.py --scenario simple.py 已知依赖项:Python(3.5.4),OpenAI Gym(0.10.5),numpy(1.14.5) 要使用这些环境,请在make_env.py查看将其导入的代码。 代码结构 make_env.py :包含用于将多代理环境作为类似OpenAI Gym的对象导入的代码。 ./multiagent/environment.py :包含用于环境模拟的代码(交互物理学, _step
2022-12-01 17:13:51 32KB paper Python
1
gazebo 11编译的
2022-11-11 13:03:35 675KB gazebo11 actor
1
Spring的IOC容器—BeanFactory—容器加载过程解析容器加载DefaultListableBeanFactory类介绍BeanFactory接口介绍BeanDefinition接口介绍BeanDefinitionRegistry接口介绍如何解析xml文件 容器加载 DefaultListableBeanFactory类介绍   DefaultListableBeanFactory类是BeanFactory的默认实现类,其间接实现BeanFactory接口、BeanDefinitionRegistry接口,同时依赖于BeanDefinition接口。其类图如下:   这是spr
2022-10-28 16:25:36 171KB act actor c
1
行动者 Actor Controller - An advanced character controller
2022-10-28 09:07:18 39.71MB unity
基于bp神经网络的adp小程序,无具体数值,需自行添加,包含actor网络和critic网络
2022-09-28 15:45:11 47KB actor-critic criticactor ADP神经网络 adp
深度强化学习的原理及其分类价值学习(DQN)、策略学习、Actor-critic原理讲解
2022-08-30 21:05:43 4.61MB
1
【翻译原创】对on-policy deep actor-critic算法有影响的参数
2022-07-16 09:07:06 1.57MB 强化学习 算法 python 经验分享
1
UE4 对象池插件 Actor对象池
2022-06-06 14:12:29 221KB ue4 源码软件
1