分布式DRL
分布式深度强化学习
该框架的灵感来自OpenAI的通用RL培训系统Rapid 。
快速框架: 我们的框架:
教程
该框架将强化学习过程分为五个部分:
重播缓冲区(选项)
参数服务器
火车(学习)
推出
测试
@ ray . remote
class ReplayBuffer :
...
# replay buffer
@ ray . remote
class ParameterServer ( object ):
...
# keep the newest network weights here
# could pull and push the weights
# also could save the weights to local
@ ray . remote ( num_gpus = 1 ,
2021-09-18 15:12:57
874KB
Python
1