上传者: 38628953
|
上传时间: 2021-10-13 18:29:55
|
文件大小: 2.26MB
|
文件类型: -
matlab代码做游戏DeepRL-Nanodegree-Project3(合作与竞争)
在此项目中,我们将使用多代理深度确定性策略梯度(MADDPG)算法来训练两个代理打网球!
环境说明
设置:两人游戏,代理人控制球拍在球网上弹跳。
目标:特工必须互相反弹,同时不得摔落或将球送出界外。
代理:环境包含两个链接到一个名为TennisBrain的单个Brain的代理。
训练后,您可以将另一个名为MyBrain的Brain附加到其中一个代理上,以与您训练有素的模型对战。
座席奖励功能(独立):
球网命中时+0.1向探员。
-0.1致使球撞到地面或越界击球的探员。
大脑:一个具有以下观察/动作空间的大脑。
向量观察空间:8个变量,分别对应于球和球拍的位置和速度。
矢量动作空间:(连续)大小为2,对应于朝向网或远离网的运动并跳跃。
视觉观察:无。
重置参数:一个,对应于球的大小。
基准平均奖励:2.5
下载说明
如果您想在计算机上尝试此算法,请按照以下说明进行操作。
首先,您至少需要在系统上安装Python
3.6。
您还将需要这些库来帮助运行代码。
一旦安装了Python,就可以使用终端上的