使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC 网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.

1
路径规划问题,有三种环境配置可实现,以下是代码来源,基于此做的实验 https://blog.csdn.net/jacken3/article/details/119803094
2022-10-18 20:05:16 472KB 强化学习 路径规划
1
边做边学深度强化学习:PyTorch程序设计实践 迷宫 Sarsa
2022-09-02 18:05:38 189KB 边学边做深度强化学习 Sarsa
1
SARSA和Q学习风的网格世界 风电网格世界上的SARSA和Q学习
2021-12-07 10:55:39 1KB
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
在这个项目中,我们在MATLAB实时编辑器环境中模拟了交互式迷宫环境,并实现了两种经典的Rl(强化学习)算法-Q学习和sarsa算法。 通过创建一个在迷宫中交互移动的代理,可以使用两种算法来训练最高激励值奖励和最佳迷宫行走方法。 最后,我们比较了两种算法的性能。
2021-11-20 10:07:37 411KB matlab
1
结合网上信息和莫烦视频做的一个分享,本想转化成博客但是一些动画我觉得还是必要的,有兴趣的可以一起交流
2021-11-18 09:31:22 29.43MB reinforcement learning Q-learning SARSA
1
cliff_walking_python-强化学习- Q学习,SARSA
2021-10-20 21:59:28 2KB
1
#3.3_Sarsa(lambda)__(强化学习_Reinforcement_Learning_教学)
2021-09-01 21:00:10 24.27MB 学习资源
#3.2_Sarsa_思维决策__(强化学习_Reinforcement_Learning_教学)
2021-09-01 21:00:09 18.89MB 学习资源