一个使用查表Q学习方法进行强化学习的简单示例。 一个特工“o”在一维世界的左边,宝藏在最右边。 运行这个程序,看看代理如何改进其寻找宝藏的策略。