火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
6轴机器人手臂的AI 因此,我用lego的EV3砖块和伺服器构建了一个6轴机械臂。 现在我需要软件来控制它。 要将手臂的尖端移动到所需位置,我只想在手臂可触及范围内的三维空间中指定该点。 人工智能应该为我完成所有艰苦的工作。 开始 我已经设计了一个非常简单的6轴手臂版本,可用于使用Tensorflow.js训练模型。 我的目标是教模型旋转所有可用轴以达到所需点。 婴儿脚步 参见 。 我的第一个测试是10x10正方形的2d地图。 我将尝试讲授一个模型,该模型通过根据新位置和B点之间的距离奖励每一步来找到从A点到B点的最快路线。 再来一维 参见 。 我的第二项测试增加了另一个维度。 我现在有一个10x10x10点的3d地图。 我将尝试讲授一个模型,该模型通过使用与第一次测试相同的奖励系统,根据新位置和B点之间的距离奖励每一步,从而找到从A点到B点的最快路线。 下一级 稍后,我将尝试讲授模
2021-11-23 10:05:43 1.88MB JavaScript
1
StartCraft II强化学习示例 该示例程序建立在 pysc2(Deepmind)[ ] 基线(OpenAI)[ ] s2client-proto(暴雪)[ ] Tensorflow 1.3(谷歌)[ ] 目前的例子 小地图 使用Deep Q Network收集矿物碎片 快速入门指南 1.获取PySC2 聚酰亚胺 获取PySC2的最简单方法是使用pip: $ pip install git+https://github.com/deepmind/pysc2 另外,您必须安装baselines库。 $ pip install git+https://github.com
1
最优控制的要点·例题·习题 第1章 数学基础 第2章 变分法及其在最优控制中的应用 第3章 极小值原理 第4章 时间、燃料最优控制 第5章 动态规划 第6章 线性二次型最优调节器 第7章 离散和采样系统的最优控制
2021-11-22 16:06:28 4.85MB 最优控制 稀缺图书
1
基于随机逼近理论,我们在限价单中提出了一个做市商的优化框架。 在最佳清算策略的背景下,我们考虑了Lavelelle,Lehalle和Pagès的文章中类似于Avellaneda-Stoikov模型的离散时间变体。 想法是利用更新出价和要价的过程的迭代性质,以使算法在反复试验的基础上(即在线学习)优化其策略。 这种方法的优点是,通过算法对系统的探索是在运行时执行的,因此不需要像随机控制方法那样对价格动态进行明确的说明。 正如将要讨论的那样,我们的方法的原理可以扩展到除做市商以外的更广泛的算法交易战术问题类别。
2021-11-22 12:52:42 1.06MB High-frequency trading algorithmic trading
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制
2021-11-21 10:54:50 580KB 二级倒立摆
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制亲测可用, 谢谢支持。
2021-11-20 21:01:32 580KB 二级倒立摆
1
【路径规划】基于强化学习Q-Learing实现栅格地图路径规划matlab源码.zip
2021-11-19 20:23:12 534KB 简介
1
基于神经网络的系统识别工具箱版本 2 NNSYSID 工具箱包含许多用于识别具有神经网络的非线性动态系统的工具。 提供了几种基于多层感知器网络的非线性模型结构,还有许多用于模型验证和模型结构选择的功能。 该工具箱需要 MATLAB 5.3 或更高版本。 工具箱随附手册(约 110 页,pdf 格式)。 更多信息可以在www.iau.dtu.dk/research/control/nnsysid.html
2021-11-19 17:26:42 710KB matlab
1
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。 DDPG:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°DDPG: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34 1.9MB Python
1