上传者: 42150745
|
上传时间: 2022-05-17 15:28:25
|
文件大小: 175KB
|
文件类型: ZIP
Q学习的冰冻湖
Q-Learning算法已在游戏《冰湖》中进行测试。
技术
该项目是通过使用nodejs和electronic的javascript实现的。
这个怎么运作
该游戏与gym.openai 相同
在这个游戏中,特工必须经过抽签才能达到目标“ G”并获得1分的奖励,否则将不给予奖励。
它可以从四个要在环境中执行的动作中进行选择,这些动作是:左移,右移,向上和向下。
字母“ S”是安全的起始位置,字母“ F”是冻结的表面,也很安全。
如果特工发现一个“ H”洞,它将掉落,结束游戏并开始下一个情节。
由于湖的表面被冻结了,特工有机会滑倒并滑到不想去的位置。
结果
通过项目中使用的参数,获得了Q表。
这是最终的Q表,代表了座席在培训阶段所获得的经验。
每一列都是业务代表根据状态可立即获得以及将来获得的奖励(向左,向右,向上和向下)采取该行动的概率。 正如所言。
而且每