参考 6.4 (Sarsa: On-Policy TD Control), Reinforcement learning: An Introduction, RS Sutton, AG Barto, MIT press 在这个演示中,强化学习技术 SARSA 解决了两个不同的迷宫。 State-Action-Reward-State-Action (SARSA) 是一种用于学习马尔可夫决策过程策略的算法,用于强化学习。 SARSA,动作价值函数的更新:
Q(S{t}, A{t}) := Q(S{t}, A{t}) + α*[ R{t+1} + γ ∗ Q(S{t+1}, A{ t+1}) − Q(S{t}, A{t}) ]
学习率 (α) 学习率决定了新获取的信息在多大程度上覆盖旧信息。 因子为 0 将使代理不学习任何东西,而因子为 1 将使代理仅考虑最近的信息。
折扣系数 (γ)
2021-06-27 13:54:05
118KB
matlab
1