使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC 网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.

1
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。 DDPG:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°DDPG: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34 1.9MB Python
1
连续状态自适应离散化基于K-均值聚类的强化学习方法.pdf
2021-08-21 13:03:32 300KB 聚类 算法 数据结构 参考文献
本文倾心整理和总结了几种常用的连续状态方程的离散方法,为了适用于离散卡尔曼滤波方程。专注于给您实在干货,提供实在参考,保证能对各位同行有所帮助。
1
一类MIMO系统连续状态空间模型的参数辨识频域方法
2021-03-02 19:04:49 384KB 研究论文
1
搭建了连续和离散两种情况下的pid s函数,效果可以,互相学习参考。
2019-12-21 19:25:47 17KB 连续状态 离散状态 pid s函数
1