rubik:学习如何使用强化学习来解决魔方-源码

上传者: 42120541 | 上传时间: 2021-10-08 16:34:28 | 文件大小: 95KB | 文件类型: -
魔方 学习如何使用强化学习来解决魔方 状态 模型正在学习一些东西。 我尝试调整模型的结构,但无法达到低于18的损失,这似乎很高。 仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。 下一步: 在get_td_value_examples和贪婪求解器中批量调用模型。 实施A *。 进一步调查模型的行为: 比损失多的指标(例如平均L1误差) 通过标签对度量进行切片:我们是否更擅长将立方体距已解决状态更近或更远? 以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。 实现既有价值头又有政策头的模型 实施MCTS。 参考 Agostinelli,F.,McAleer,S.,Shmakov,A。等。 通过深度强化学习和搜索解决魔方。 Nat Mach Intell 1,356–363(2019)。 DeepCubeA。 DNN使用TD(0)学习值函数 更复杂的网

文件下载

评论信息

  • weixin_50109184 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-08-15

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明