强盗地牢演示
一个简单的Unity项目,展示了多臂强盗算法。
总览
在最简单的情况下,有一个包含两个箱子的房间。 打开箱子会产生钻石(好东西)或重影(坏东西)。 多次打开相同的箱子会根据产生钻石的一些潜在概率产生不同的钻石和幻影序列。 例如,概率为0.5的箱子表示将产生50-50的钻石和鬼影的混合,而概率为0.9的箱子表示将产生十分之九的钻石(约十分之一)。 注意,每个箱子都有其自己的真实概率,该主体(在这种情况下,是决定打开哪个箱子的实体)不知道的。 代理人每次选择箱子时,在发现钻石的情况下要么获得正面奖励,要么在发现鬼影的情况下获得负面奖励。 代理商的目标是在许多试验中最大化其总奖励-在每
1