基于深度强化学习卡尔曼滤波锂离子电池 SOC 估计.pdf
2021-12-04 11:01:36 739KB 算法 互联网 资源
强化学习资料(强化学习原理及其应用)
2021-12-02 10:36:23 56.23MB 强化学习
1
Carla目前的稳定版为即可下载,linux解压后命令行执行这将启动一个全屏的仿真窗口,你能使用WASD驾驶车辆实验中往往增加各种参数进行配置carla-server参数表示以服务端模式运行,等待客户端连接benchmarkfps=10表示仿真中每一个step的时间间隔相同windowedResX=300ResY=300表示窗口化以及大小配置环境变量:SDL_VIDEODRIVER=offscreen和SDL_HINT_CUDA_DEVICE=0程序中可以这么写这个目前的缺点是默认第0块GPU,选择其他的会失效,在https://github.com/carla-simulator/carla
1
离散控制Matlab代码 一阶倒立摆最优控制 Invert pendulum Optimal Control 考虑一阶倒立摆简化模型如下图,如图所示为非线性不稳定的倒立摆,目标是通过传感器测量
2021-11-30 21:14:33 1.46MB 系统开源
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制
2021-11-28 22:11:46 580KB simulink建模
1
最佳控制理论,庞特里亚金最大值原理,贝尔曼的动态规划方法
2021-11-28 17:43:17 757KB 最大值原理
1
要运行的文件:mainproc.m 控制向量参数化,也称为直接序列法, 是求解最优控制问题的直接优化方法之一。 直接优化方法的基本思想是将控制问题离散化,然后将非线性规划 (NLP) 技术应用于最终的有限维优化问题。 问题是您希望从时间 $t = 0$ 的 $A=(0,0)$ 转向接近时间 T 的 $B=(4,4)$ 点。运动发生在 $ x_1, x_2$ 平面。 您的控制变量是推力 $u$ 和推力角 $\theta$。 角度 $\theta$ 是从 $x_1$ 轴测量的。 为了让生活变得有趣,在 (3,0) 处有一个大质量,它施加的力与您与质量的距离的平方的倒数成正比。 (详情见发布代码) *问题来自NCSU的“最优控制”课程(由Stephen Campbell博士主持)。
2021-11-28 16:15:24 99KB matlab
1
经过算法改进,实现了比Q学习更快的收敛速度,可以快速的找到最短路径,程序使用了matlab语言,适合初学者,也适合科研硕士研究。
2021-11-28 12:07:36 49KB matlab 路径规划 人工智能 强化学习