强化学习导论 第二版 英文版 2017最新版 Reinforcement Learning An Introduction
2022-03-12 16:41:37 12.11MB 强化学习 增强学习
1
Comparison of Reinforcement Learning Algorithms applied to the Cart-Pole Problem,APPLICATION OF REINFORCEMENT LEARNING ALGORITHMS TO OPTIMIZATION AND CONTROL PROBLEMS 论文实现代码
2022-03-11 22:25:55 2.83MB 强化学习 动态规划 MATLAB
1
C++中一般创建对象,拷贝或赋值的方式有构造函数,拷贝构造函数,赋值函数这三种方法。下面就详细比较下三者之间的区别以及它们的具体实现 1.构造函数 构造函数是一种特殊的类成员函数,是当创建一个类的对象时,它被调用来对类的数据成员进行初始化和分配内存。(构造函数的命名必须和类名完全相同) 首先说一下一个C++的空类,编译器会加入哪些默认的成员函数 默认构造函数和拷贝构造函数 析构函数 赋值函数(赋值运算符) 取值函数 **即使程序没定义任何成员,编译器也会插入以上的函数! 注意:构造函数可以被重载,可以多个,可以带参数;析构函数只有一个,不能被重载,不带参数 而默认构造函数没有参数,它什么也不做
2022-03-11 16:49:34 77KB c++ string 函数
1
主要介绍了Numpy一维线性插值函数的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2022-03-11 15:19:52 45KB Numpy 一维线性插值 函数
1
DeepRL 深度强化学习的框架。 特征: 算法分为模块 易于异步运行的算法 易于添加新算法 依存关系 python3.6 麻木 火炬 健身房 安装 git clone https://github.com/ppaanngggg/DeepRL pip install -e . 模块: 1.代理 DoubleDQNAgent:具有双Q学习功能的基础深度Q学习 通过深度强化学习进行人为控制 双重Q学习的深度强化学习 DDPGAgent:通过深度确定性策略梯度继续控制 具有深度强化学习的连续控制 PPOAgent:通过近端策略优化继续控制 近端策略优化算法 2.重播 重播:基本重播,从池中随机选择并删除最旧的一个 通过深度强化学习进行人为控制 ReservoirReplay:从池中随机选择一个,然后随机删除一个,用于NFSPAgent的策略网络 在不完全信息游戏中通过自我玩法进行深度强化
2022-03-11 11:06:16 38KB Python
1
gkp-rl 使用GKP代码进行量子错误校正的强化学习
2022-03-11 09:02:20 1.38MB JupyterNotebook
1
turtlebot3强化学习避障,包括DQN, DDPG,PPO,SAC。 转载地址 https://github.com/Crawford-fang/ROS_pytorch_RL/tree/main/DQN 我就用过DQN,里面有很多需要修改的地方。主要是包括路径的代码,改成自己的路径。还有神经网络输入数量有错,需要和雷达接收到的数据维度一致。还有存储空间有错,大小应该为两倍输入数据的大小加上奖励数据和动作数据的大小。代码可用于其他环境和雷达小车
2022-03-10 20:34:34 358KB ROS DQN 深度强化学习 避障
1
控制向量参数化方法是求解最优控制的一种常用方法,其时间网格通常是固定的。在每个时间段上,控制向量表示为由一组参数确定的时间的函数。时间网格的划分会影响到数值求解最优控制问题时最优化算法的准确性和效率。为了同时优化控制参数和时间网格的节点,提出了一种可变时间节点控制向量参数化方法,通过带有时间参数的S型函数来近似分段常数参数化方法中的切换过程。推导出了最优控制性能指标对时间参数的导数,并提出了处理时间节点约束的算法。利用所提出方法求解带有两个控制的最优控制实例,对于两个控制获得了不同的时间网格划分,从而能够更好地近似最优控制轨迹。
1
动力学控制课程的作业,自己搭的模型,一个三自由度楼房仿真模型,分别用最优控制和独立模态控制,包含作业文档和simulink模型
1
离散控制Matlab代码学习RL 学习强化学习(在MATLAB:registered:中) 抽象的 该软件是一个游乐场,专门针对具有多种设置的详细学习强化学习(RL)。 运动场的核心是基于移动机器人的模型,被称为“扩展的非完整双积分器”(ENDI)。 有关说明,请参见。 总体代码流程图可在中找到。 基本上,代理(也称为“控制器”)连接到环境(系统)并生成操作,以使将来在无限远景中的运行成本(也称为奖励或阶段成本)最小化。 因此,此软件包中的特定目标是停放机器人。 该控制器为多模式控制器,可与各种基线进行比较(标称停车控制器,具有和不具有实时模型估计功能的模型预测控制器)。 包装的主要内容 -初始化脚本 -在MATLAB 2018a中,主文件是一个Simulink模型,顾名思义 -包含评论者定义的函数的脚本 -包装成适合在Simulink中使用的形式的状态空间模型的标准估计量 -确定确定合适的初始状态的方法相同 -包含角色定义为功能的脚本 -标称停车控制器的辅助功能 详细内容如下 一般说明 流程图中的大部分内容说明了该软件的不同部分之间如何交互。 它的主要成分是: 系统 标称控制器 由模型估算器,评论家和演员
2022-03-09 18:12:05 407KB 系统开源
1