强化学习的泛化性一直是个被人诟病的问题。最近来自UCL& UC Berkeley的研究人员对《深度强化学习》做综述,阐述了当前深度学习强化学习的泛化性工作,进行了分类和讨论。
2021-11-24 13:07:07 6.08MB 深度强化学习 泛化性
1
利用(μ,λ)演化策略求解Ackley函数极小化问题。主要包括种群初始化、重组、变异、(μ,λ)存活选择四个步骤来进行求解。
1
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
6轴机器人手臂的AI 因此,我用lego的EV3砖块和伺服器构建了一个6轴机械臂。 现在我需要软件来控制它。 要将手臂的尖端移动到所需位置,我只想在手臂可触及范围内的三维空间中指定该点。 人工智能应该为我完成所有艰苦的工作。 开始 我已经设计了一个非常简单的6轴手臂版本,可用于使用Tensorflow.js训练模型。 我的目标是教模型旋转所有可用轴以达到所需点。 婴儿脚步 参见 。 我的第一个测试是10x10正方形的2d地图。 我将尝试讲授一个模型,该模型通过根据新位置和B点之间的距离奖励每一步来找到从A点到B点的最快路线。 再来一维 参见 。 我的第二项测试增加了另一个维度。 我现在有一个10x10x10点的3d地图。 我将尝试讲授一个模型,该模型通过使用与第一次测试相同的奖励系统,根据新位置和B点之间的距离奖励每一步,从而找到从A点到B点的最快路线。 下一级 稍后,我将尝试讲授模
2021-11-23 10:05:43 1.88MB JavaScript
1
StartCraft II强化学习示例 该示例程序建立在 pysc2(Deepmind)[ ] 基线(OpenAI)[ ] s2client-proto(暴雪)[ ] Tensorflow 1.3(谷歌)[ ] 目前的例子 小地图 使用Deep Q Network收集矿物碎片 快速入门指南 1.获取PySC2 聚酰亚胺 获取PySC2的最简单方法是使用pip: $ pip install git+https://github.com/deepmind/pysc2 另外,您必须安装baselines库。 $ pip install git+https://github.com
1
最优控制的要点·例题·习题 第1章 数学基础 第2章 变分法及其在最优控制中的应用 第3章 极小值原理 第4章 时间、燃料最优控制 第5章 动态规划 第6章 线性二次型最优调节器 第7章 离散和采样系统的最优控制
2021-11-22 16:06:28 4.85MB 最优控制 稀缺图书
1
基于随机逼近理论,我们在限价单中提出了一个做市商的优化框架。 在最佳清算策略的背景下,我们考虑了Lavelelle,Lehalle和Pagès的文章中类似于Avellaneda-Stoikov模型的离散时间变体。 想法是利用更新出价和要价的过程的迭代性质,以使算法在反复试验的基础上(即在线学习)优化其策略。 这种方法的优点是,通过算法对系统的探索是在运行时执行的,因此不需要像随机控制方法那样对价格动态进行明确的说明。 正如将要讨论的那样,我们的方法的原理可以扩展到除做市商以外的更广泛的算法交易战术问题类别。
2021-11-22 12:52:42 1.06MB High-frequency trading algorithmic trading
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制
2021-11-21 10:54:50 580KB 二级倒立摆
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制亲测可用, 谢谢支持。
2021-11-20 21:01:32 580KB 二级倒立摆
1