MiVeCC_with_DRL 这是一种多路口车辆合作控制(MiVeCC)方案,可实现3 * 3无信号交叉口中车辆之间的协作。 我们提出了一种结合启发式规则和两阶段深度强化学习的算法。 启发式规则使车辆通过交叉路口而不会发生碰撞。 基于启发式规则,DDPG用于优化车辆的协同控制并提高交通效率。 仿真结果表明,与现有方法相比,所提算法在不发生碰撞的情况下可将多个路口的出行效率提高4.59倍。 一种基于端边云计算的多路口车辆协同控制| 先决条件 Linux 或 macOS Python 3 MATLAB 2017b CPU或NVIDIA GPU + CUDA CuDNN Python模块 numpy==1.16.2 opencv-contrib-python == 3.4.2.16 opencv-python==4.2.0.32 张量流==1.12.0 matplotlib=
2023-04-08 09:27:17 15.22MB Python
1
目前,大多数 DRL 模型事实上还停留在传统的博弈论层面,例如**纳什均衡或零和游戏**等。但随着DRL的发展,传统博弈论方法已经逐渐呈现出不足之处,而同时则有一些新的博弈论方法被纳入到人工智能的程序当中。雷锋网公众号介绍三种深刻影响 DRL 的「新」博弈论方法:平均场博弈(Mean Field Games,MFG);随机博弈(Stochastic games);进化博弈(Evolutionary Games,EGT)。本文是对公众号介绍文章的消化再整理:标注按字者,加注标签;关键地方,有粗体和下划线。适合快速而较系统的了解博弈发展状况的读者。
2023-04-08 01:04:46 11KB 深度强化学习DRL 博弈论
1
DRLND-project-2 该存储库包含项目2的实现。 项目详情 到达者 该项目实现了PPO,用于解决Unity环境中的连续控制问题-使机械臂跟随旋转的航点-在具有20个代理的变体版本上。 最终执行记录: 当手臂末端位于目标球体内/目标航路点的固定范围内时,每个代理随时间累积的奖励。 代理的目标是遵循路标。 对于每个代理,状态空间具有33个维度,而动作空间具有4个连续维度。 该任务是情节性的,当特工在100个连续情节中获得+30的平均分数时,该任务被认为已解决。 履带式 该项目的可选/额外/挑战部分是控制爬虫。 在面对正确方向和该方向的速度时,每个四脚实体尝试遵循目标目标时,每个代理随时间累积的奖励。 该环境具有12个代理,每个代理以129维观察状态,并以20维控制动作。 该环境基于。 入门 依存关系 可以根据依赖关系来设置此项目的依赖关系。 以下说明将引导您逐步设置该
1
本文介绍了最优化方法和最优控制的基本概念和应用。其中包括欧拉-拉格朗日方程和变分法等数学工具的应用,以及最优控制问题的求解方法和应用实例。本文旨在帮助读者深入了解最优化方法和最优控制的理论和实践应用。
2023-04-03 12:38:49 14.97MB matlab
1
针对传统的阈值函数在图像去噪中存在硬阈值函数不连续、软阈值函数会产生恒定误差的不足,在多层小波变换的基础上,对阈值选取方法进行了改进,并改变了传统软阈值函数。实验结果表明,该方法无论在视觉效果还是在信噪比定量指标上均优于传统硬阈值法和软阈值法。
2023-04-01 14:13:51 988KB 自然科学 论文
1
强化学习matlab源代码很少见的源代码,详细介绍Q学习的编程过程。
2023-03-29 19:06:09 2KB 强化学习 matlab 源代码
1
霍金斯-国际象棋AI “霍金斯”是由Minimax搜索算法提供支持的Chess AI。 它利用了各种优化技术,主要是对alpha-beta修剪和其他传统国际象棋引擎方法的扩展。
2023-03-29 10:01:07 325KB Python
1
针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG控制算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG控制算法。煤矸石进入机械臂工作空间后,改进DDPG控制算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。
2023-03-28 14:05:55 1.97MB 选煤 煤矸石分拣 分拣机器人 机械臂
1
最优控制的matlab代码实现 SIST-Manual 生活 / Life 合理分配学习与休息时间,量力而行。 保证充足的睡眠时间,以及尽可能地不要过晚入睡。 注意用眼时长,由于信息学院学生会时常接触电脑屏幕,故须适当放松。 注意饮食,不要经常食用方便食品(比如泡面)。 预先准备 / Preparation English Prepare for speaking and listening so that you can talk fluently with peers. You also need some reading skills so that you can read Wikipedia, which is not blocked if you read English. There are many links to Wikipedia in this manual, try understand them first :). One trivia about Wikipedia: whenever you run into some alien language, w
2023-03-23 10:53:52 4.78MB 系统开源
1
RL4J:Java 强化学习 有关 RL4J 的支持问题,请联系 。 RL4J 是一个与 deeplearning4j 集成并在 Apache 2.0 开源许可下发布的强化学习框架。 DQN(带双 DQN 的深度 Q 学习) 异步强化学习(A3C,异步 NStepQlearning) 低维(信息数组)和高维(像素)输入。 一篇有用的博客文章,向您介绍强化学习、DQN 和 Async RL: 快速开始 安装 可视化 厄运 Doom 还没有准备好,但如果你喜欢冒险,你可以通过一些额外的步骤让它工作: 您将需要 vizdoom,编译本机库并将其移动到项目根目录中的文件夹中 export MAVEN_OPTS=-Djava.library.path=THEFOLDEROFTHELIB mvn compile exec:java -Dexec.mainClass="YOURMAINCL
1