RLDiceGame
介绍
该存储库中的代码实现了一个简单的框架,用于骰子游戏中的强化学习。 强化学习是指能够从反复试验中学习的机器学习框架。 该框架很大程度上归功于马尔可夫决策过程:每个步骤都由一个状态和在该状态下要执行的选定动作来描述。 下一步包含通过对初始状态执行操作而计算出的新状态。 强化学习增加了一种反馈机制,该机制允许所计算的动作响应于外部提供的分数而改变。
增强型学习与监督式学习相反,后者是一种指导机器根据已知分类对状态进行分类的方法,而无监督式学习则是一种无监督学习的方法,后者是一种机器在训练数据中标识自己的集群的方法。 在强化学习中,提供的反馈是基于初始状态和采取的措施的得分。
作为特定示例,Blue Orange Games为流行的骰子游戏Yamslam提供了训练工具。 线束和游戏仅实现一轮Yamslam,包括初始掷出5个6面骰子,决定保留5个初始掷骰子的子集,然后
2022-11-10 11:09:53
88KB
Python
1