PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
1
布鲁克林Bang Bang 在学生中进行项目/竞赛的设置,以训练经典游戏Bomberman的获奖强化学习代理。 方法 简单神经网络方法 ( 是基于的代理 罗莎·迪亚兹(Rosa Diaz) 杰克·佩拉尔塔(Jake Peralta) Github动作 培训代理商可能会令人讨厌。为了简化我们的工作,我们集成了一个Github Action来自动培训我们的代理商。可悲的是,我的服务器没有图形卡,因此我们仍然使用CPU进行训练。好吧,我并不富有:D 使用映像运行 : docker run -it --name github-runner \ -e RUNNER_NAME=private \ -e GITHUB_ACCESS_TOKEN=... \ -e RUNNER_TOKEN=... \ -e RUNNER_REPOSITORY_URL=https://gi
1
强化学习导论 第二版 英文版 2017最新版 Reinforcement Learning An Introduction
2022-03-12 16:41:37 12.11MB 强化学习 增强学习
1
CuRL-针对目标机器人控制的课程强化学习 我的MEng在计算(人工智能)最终项目中的代码档案,报告- 。 该项目的主要成果是CuRL-一种用于培训政策以完成面向目标的机器人任务的方法,而最新的深度强化学习则很难解决这些问题。 通过使用简单任务的课程表,我们逐步指导一项政策,使其能够完成所需的完整任务。 上图有助于说明该方法。 我们的目标是训练机器人在避开墙壁的情况下到达目标球体。 从头开始使用强化学习的最新方法将很难学会克服困难。 在项目报告中对此进行了更详细的说明。 通过课程强化学习,我们最初会移除墙壁,并且机器人可以学习沿红色轨迹移动。 通过顺序添加墙的“部分”(用彩色同心圆表示),我们可以指导策略,以便机器人学习遵循所需的绿色轨迹。 本文介绍的最终方法及其早期版本需要对RL算法的基线实现进行重大更改,尤其是为了支持残余策略培训。 我希望这里提供的代码可以帮助其他从事类似项目
1
图 12.25 输出量为车体垂向位移加速度的伯德图 另外,从频率响应图中可以反映,如果只研究低频激扰,那系统可以简化成非常简单的 模型,如研究轮对横移量为输出,系统的传函可以简化为一个普通的二阶振荡环节;以车体 垂向位移为输出,系统的传递函数也是可以简化为一个二阶振荡环节;而若以车体垂向加速 度为输出,由于在低频段幅频特性是一段斜率为 40dB/dec 的直线,而相频为相位超前 180 度,故可将系统简化为一个二阶微分环节。。 (3)谱分析 应用周期调制的随机过程来表达典型的轨道几何偏差较为适合。这种过程包括两部分, 一是平稳随机过程,用以代表钢轨随机不平顺,另一个是周期过程,用以描述规则排列的平 均幅值不为零的轨缝。轨缝幅值的大小是随机的,但其位置分布则是规则的。在分析周期调 制的随机过程中功率谱密度(PSD)是一种很有用的工具。在轨道几何 PSD 中,平稳随机过 程产生平滑连续谱。而轨缝的非零平均幅值(周期过程)则产生谱峰。现代铁路中的客运专 线大部分都为无缝轨道,轨道几何 PSD 中只有平稳随机过程代表的钢轨随机不平顺,而没有 代表轨缝的周期过程。在计算中,可以使用轨道横向不平顺为德国高速铁路横向高干扰,轨 道垂向不平顺是德国高速铁路垂向高干扰。输出向量为第一轮对的横向位移和横向加速度、 前转向架构架的横向位移量和横向加速度、车体中心的横向位移量和横向加速度、车体中心 的垂向位移量和垂向加速度。图 12.26 和 12.27 表示模型 A和模型 B的轮对、构架、车体和 激扰的横向位移谱。位移谱的主要峰值对应为该自由度的自然频率[14]。 从车体的横向位移谱和垂向位移谱分析中可见,谱的分布集中在低于 4Hz 的频域上。 故说明车体振动对低频十分敏感。从对各刚体位移谱分析来看,模型 B与模型 A 的差异主 要是体现在高频部分,但这种差异本身是很微小的。 10-1 100 101 102 10-9 10-8 10-7 10-6 10-5 10-4 10-3 D is pl ac em en t/[ m2 /H z] Frequency/Hz 轮对1 构架1 车体 轨道横向谱 10-1 100 101 102 10-9 10-8 10-7 10-6 10-5 10-4 10-3 D is pl ac em en t/[ m2 /H z] Frequency/Hz 轮对1 构架1 车体 轨道横向谱 图 12.26 模型 A的刚体横向位移谱 图 12.27 模型 B的刚体横向位移
2022-03-04 09:21:55 18.28MB simpack
1
qtrader 资产组合管理的强化学习 为什么要进行强化学习? 学习最佳行动,而不是为市场建模。 由于其在线培训,因此可以适应市场的暂时变化。 优化长期(累积)回报,而不是瞬时收益。 设置 由于typing s,因此与Python 3兼容 苹果系统 source scripts/setup.sh 文献资料 : qtrader简介 :现有方法的动机,利弊 :相关资源清单 :硕士论文 :15分钟的项目演讲
1
强化学习经典书籍,介绍了强化学习当前的各个细节,实用性很强。
2022-03-02 08:44:10 8.27MB 强化学习 经典书籍
1
强化学习导论第二版,网上虽已有,但有80M之多。这个版本仅10M多。
2022-02-27 21:56:05 10.39MB Learning Reinforcemen
1
Richard S. Sutton的关于强化学习经典的教科书,此书为2017最新版,涵盖DeepMind团队最新理论成果,无论是想学习强化学习还是作为机器学习的泛读材料,都值得一看。
2022-02-27 21:55:14 10.85MB 强化学习
1
Gym-UnrealCV:用于视觉增强学习的逼真的虚拟世界 介绍 该项目将Unreal Engine与OpenAI Gym集成在一起,用于基于视觉增强学习。 在此项目中,您无需任何虚幻引擎和UnrealCV知识即可在各种现实的UE4环境中轻松运行RL算法。 已经发布了许多用于机器人视觉任务的环境,例如Searching for objects , Active object tracking和Control a robotic arm 。 该项目的框架如下所示: UnrealCV是Unreal Engine和OpenAI Gym之间的基本桥梁。 OpenAI Gym是用于开发RL算法的
2022-02-25 22:04:26 15.52MB reinforcement-learning gym unreal-engine unrealcv
1