和声2
俄罗斯方块
带有深
Q
网络的俄罗斯方块。
在下面的
GIF
中,计算机设法清除了
1000
多行。
这个怎么运作
强化学习
用于确定在给定状态时应该采取什么行动来最大化奖励。
状态
我尝试了两种不同的状态类型以找到最合适的一种。
起初使用的是板的二维阵列,但结果证明这是不可行的,因为神经网络必须更加复杂才能开始检测任何模式。
最终,决定在潜在行动后使用基于董事会统计数据的状态。
将比较所有预测,但将使用具有最佳状态的动作。
之所以选择下面的一些统计数据是由于
Dellacherie
的算法。
名称
描述
Kong
一个完整单元格覆盖的空单元格数
着陆高度
添加最后一块的高度
侵蚀片细胞
(行已清除)×(从最后一块中删除的单元格)
行转换
水平单元格过渡次数
列转换
垂直单元格过渡的数量
累积井数
所有井的总和
颠簸
每列的高度差一共
总高度
每列的高度总和
行已清除
清除的行数
报酬
奖励基于原始的俄罗斯方块游戏,但也会在演员活着时给予奖励并在失败时获得奖励。
名称
报酬
活
+1
清除
1
行
+40
清除
2
行
+100
清除
3
行
+300
清除
4
行
+1200
2021-07-01 17:04:07
1.94MB
系统开源
1