基于深度强化学习的动态计算卸载,程百川,刘丹谱,移动边缘计算在移动网络边缘提供计算资源。为了减少执行时延,计算密集型任务可以从用户设备卸载到移动边缘服务器。当考虑到任务
2021-06-21 09:50:46 320KB 无线通信
1
Q Learning强化学习自动交易机器人
2021-06-21 09:19:50 223KB Python开发-机器学习
1
包含若干强化学习电子版书籍和完整视频教程
1
深入浅出强化学习:原理入门 《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于这个思路,分别介绍了基于值函数强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。 除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。
2021-06-20 19:07:56 34.06MB RL
1
pytorch框架,主要实现算法有Q-Learning,Sarsa,DQN,DQN-cnn,DoubleDQN,Hierarchical DQN,PG,A2C,SAC,PPO,DDPG,TD3等,能够满足GPU和CPU不同条件,实现模型保存,断点续训,测试结果绘图等,可在此框架魔改你的环境,相当不错。
2021-06-19 19:08:09 147.4MB pytorch python 强化学习 深度学习
1
@源自《自动控制原理》胡寿松第六版——例10-11【p557】。本例为二次积分模型的最小时间控制问题,时间控制为Bang-Bang控制,可用极小值原理求解。在任意初值条件下,都可以计算出特定的控制输入,使系统回到0状态。
2021-06-19 11:40:13 16KB MATLAB 最优控制
1
本文用极大值原理及动态规则讨论不定点飞行多级火箭的最优控制问题,得出最优控制为β≡β_(?),φ≡φ_0的结果.
2021-06-18 17:03:18 297KB 自然科学 论文
1
导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。
2021-06-18 11:25:36 11.94MB 基于强化学习的无地图机器人导航
1
确定性清洁机器人的基于模型的值迭代算法。 这段代码是值迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 确定性清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (1) 和最后 (6) 个状态是终止状态。 目标是找到一种最佳策略,以使任何初始状态的收益最大化。 这里是 Q-iteration(基于模型的值迭代 DP)。 参考:算法 2-1,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CRC Pre
2021-06-18 10:14:57 5KB matlab
1
two_prisoners.py
2021-06-18 09:11:01 24KB 多智能体 强化学习 囚徒困境
1