第5课 强化学习中的时间差分
2022-10-17 13:05:40 1.89MB TemporalDiffere 强化学习
1
【jupyter notebook】强化学习中的时间差分算法实现笔记
2022-10-17 13:05:33 1.24MB TD 强化学习 时间差分
1
围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博弈研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜索与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基于时间差分算法的围棋机器博弈系统模型,该博弈系统具有一定的自学习能力,能在不断的对弈中逐步提高博弈能力.通过与采用α-β搜索算法的博弈系统进行实际对弈,证明了该方法的可行性.
2022-06-26 14:38:04 350KB 工程技术 论文
1
包括基于动态规划的强化学习、基于蒙特卡洛的强化学习、基于时间差分的强化学习、Q-learning算法、sarsa算法
2021-04-04 09:11:58 2.04MB 强化学习 Q-learning sarsa 时间差分
1