迷宫
当我回顾我在上所做的一些工作时,我开始了这个小。 该项目将相同的强化学习 (RL) 概念应用于迷宫学习,因为求解器试图找到从迷宫左上角到右下角的最短路径。
虽然其他算法在解决静态迷宫时会快得多(例如,蛮力方法会更快),但这种解决算法以其如何存储其状态和适应不断变化的环境的能力而著称。
求解器的“知识”由与位置决策对相关联的值表示。 对于迷宫中的每个位置,求解器可以进行一次或多次移动以在迷宫中前进。 每次移动后,求解器都会获得奖励(或在这种情况下为惩罚-稍后会更多)。 然后,考虑到奖励以及从新位置开始的最佳移动,求解器通过更新其位置决策值来评估其最后一个决策。
例如,假设我们有一个位于位置1的求解器,并且有两个可能的移动距离:移动a和b 。 假设经过一些学习,求解器更新了这些移动的相对值,使得a的值为 -1, b的值为 2。(注意:这些值仅意味着b是比a更好的选择。一个可能还会考
1