Richard Sutton and Andrew Barto 的经典书籍《Reinforcement Learning- an introduction》。阅读本书是学习强化学习之路上不可避免的一环。而本书是经过两次修改2018年的最新版本。同时推荐youtube上面Alpha Go项目组David Silver的教学视屏,搭配学习,效果更佳哦~
2022-05-29 15:50:05 12.2MB 强化学习 电子书 Reinforce Le
1
python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索python本科毕业设计《基于深度强化学习的云工作流调度》。关键词:有向无环图,工作流,深
控制系统的应用中存在状态不能直接测量或测量成本高的实际问题,给模型参数未知的系统完全利用状态数据学习最优控制器带来挑战性难题.为解决这一问题,首先构建具有状态观测器且系统矩阵中存在未知参数的离散线性增广系统,定义性能优化指标;然后基于分离定理、动态规划以及Q-学习方法,给出一种具有未知模型参数的非策略Q-学习算法,并设计近似最优观测器,得到完全利用可测量的系统输出和控制输入数据的非策略Q-学习算法,实现基于观测器状态反馈的系统优化控制策略,该算法的优点在于不要求系统模型参数全部已知,不要求系统状态直接可测,利用可测量数据实现指定性能指标的优化;最后,通过仿真实验验证所提出方法的有效性.
1
用MATLAB语言实现Q-learning算法应用于迷宫最短路径问题
2022-05-26 16:35:02 3KB Q-learning 强化学习实例
1
基于matlab的强化学习QLearning路径规划性能仿真 +程序操作视频 输出训练曲线,以及小车行驶路径,避障过程。 注意事项(仿真图预览可参考博主博客里面"同名文章内容"。): 使用matlab2022a或者高版本仿真,运行文件夹中的tops.m。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。 具体操作观看提供的程序操作视频跟着操作。
2022-05-26 12:05:58 2.51MB matlab 强化学习 QLearning 路径规划
基于Qlearning强化学习的机器人路线规划仿真,带GUI界面,可设置障碍物 +GUI界面+程序操作视频 注意事项(仿真图预览可参考博主博客里面"同名文章内容"。): 使用matlab2022a或者高版本仿真。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。 具体操作观看提供的程序操作视频跟着操作。
2022-05-26 12:05:56 6.02MB 源码软件 Qlearning 强化学习 路线规划
pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,同步pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,这是A3C近端策略优化PPO的同步确定性版本,用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子:A2C / ACKTR和PPO获得更多信息
2022-05-26 11:38:01 8.53MB Python Deep Learning
1
人工智能-项目实践-自适应学习-使用强化学习来实现旋转门算法参数的自适应 使用强化学习来实现旋转门算法参数的自适应
在被动式Biped机器人的研究中,避免跌倒一直是研究的重要方向。 在本文中,我们提出了深度确定性策略梯度(DDPG)来控制Biped机器人在斜坡上的稳定行走。 为了提高DDPG的训练速度,本文中使用的DDPG通过并行参与者和优先体验重放(PER)进行了改进。 在模拟中,我们控制导致Biped机器人跌倒的不同初始状态。 控制后,两足动物机器人可以稳定行走,这表明DDPG可以有效地控制两足动物机器人的跌倒。
2022-05-24 10:29:06 907KB 研究论文
1
研究生《最优控制》期末试卷2020真题;Problems for examination 1) Explain briefly the features of the main approaches and the relationship between these approaches used to solve optimal control problems. (15 points);
2022-05-23 14:03:42 138KB 最优控制 期末考试 中南大学