#3.1_Sarsa_算法更新__(强化学习_Reinforcement_Learning_教学)
2021-09-01 21:00:07 12.89MB 学习资源
MATLAB强化学习代码包,用于解决多步决策模型(网格迷宫问题)的Sarsa算法。 编程与算法的详细说明可参看我的专栏:https://blog.csdn.net/weixin_43723517/category_9676083.html "I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?"
2021-06-27 23:20:29 2KB matlab 强化学习 机器学习 Sarsa算法
1
参考 6.4 (Sarsa: On-Policy TD Control), Reinforcement learning: An Introduction, RS Sutton, AG Barto, MIT press 在这个演示中,强化学习技术 SARSA 解决了两个不同的迷宫。 State-Action-Reward-State-Action (SARSA) 是一种用于学习马尔可夫决策过程策略的算法,用于强化学习。 SARSA,动作价值函数的更新: Q(S{t}, A{t}) := Q(S{t}, A{t}) + α*[ R{t+1} + γ ∗ Q(S{t+1}, A{ t+1}) − Q(S{t}, A{t}) ] 学习率 (α) 学习率决定了新获取的信息在多大程度上覆盖旧信息。 因子为 0 将使代理不学习任何东西,而因子为 1 将使代理仅考虑最近的信息。 折扣系数 (γ)
2021-06-27 13:54:05 118KB matlab
1
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策 略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新 定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最 优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.
1
包括基于动态规划的强化学习、基于蒙特卡洛的强化学习、基于时间差分的强化学习、Q-learning算法、sarsa算法
2021-04-04 09:11:58 2.04MB 强化学习 Q-learning sarsa 时间差分
1
从各种网站在下载到的Q学习算法集成包,有matlab示例,有C示例,有Java示例,有C++示例。总有一个算法是你需要模拟和借鉴的,需要研究强化学习或增强学习算法的人不容错过。。。真心话,要不是我需要下载别的资源需要积分,不会无私奉献。。。我的强化学习就是在这里面修改实现的,需要的顶起来。。
2019-12-21 21:13:00 260KB Q学习 强化学习 增强学习 DynaQ
1
sarsa,q-learning
2019-12-21 19:53:20 8KB sarsa
1