魔方
学习如何使用强化学习来解决魔方
状态
模型正在学习一些东西。 我尝试调整模型的结构,但无法达到低于18的损失,这似乎很高。
仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。
下一步:
在get_td_value_examples和贪婪求解器中批量调用模型。
实施A *。
进一步调查模型的行为:
比损失多的指标(例如平均L1误差)
通过标签对度量进行切片:我们是否更擅长将立方体距已解决状态更近或更远?
以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。
实现既有价值头又有政策头的模型
实施MCTS。
参考
Agostinelli,F.,McAleer,S.,Shmakov,A。等。 通过深度强化学习和搜索解决魔方。 Nat Mach Intell 1,356–363(2019)。
DeepCubeA。
DNN使用TD(0)学习值函数
更复杂的网
1