搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

UCL& UC Berkeley最新《深度强化学习泛化性》综述

强化学习的泛化性一直是个被人诟病的问题。最近来自UCL& UC Berkeley的研究人员对《深度强化学习》做综述，阐述了当前深度学习强化学习的泛化性工作，进行了分类和讨论。

2021-11-24 13:07:07 6.08MB 深度强化学习 泛化性

1

演化策略求解多维实值函数优化问题（Ackley函数极小化）

利用（μ,λ）演化策略求解Ackley函数极小化问题。主要包括种群初始化、重组、变异、（μ,λ）存活选择四个步骤来进行求解。

2021-11-24 12:37:47 2.32MB 演化策略 多维实值优化 Ackley函数极小化问题

1

Deep_Reinforcement_Learning：深度强化学习项目的集合-源码

深度_强化_学习

2021-11-23 20:48:32 16KB reinforcement-learning deep-learning deep-reinforcement-learning reinforcement-learning-algorithms

1

torchrl：强化学习算法的Pytorch实现（软演员评论员（SAC）DDPG TD3 DQN A2C PPO TRPO）-源码

火炬RL RL方法的Pytorch实现支持具有连续和离散动作空间的环境。支持具有1d和3d观察空间的环境。支持多进程环境要求一般要求火炬1.7 健身房（0.10.9） Mujoco（1.50.1）列表（用于日志） tensorboardX（日志文件输出）张量板要求 Tensorflow：启动tensorboard或读取tf记录中的日志安装使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求用法在配置文件中指定算法的参数，并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息目前包含：政策上的方法：加强 A2C（演员评论家） PPO（近端政策优化）

2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn

1

tensorflow-robot-arm：6轴机器人手臂的强化学习测试-源码

6轴机器人手臂的AI 因此，我用lego的EV3砖块和伺服器构建了一个6轴机械臂。现在我需要软件来控制它。要将手臂的尖端移动到所需位置，我只想在手臂可触及范围内的三维空间中指定该点。人工智能应该为我完成所有艰苦的工作。开始我已经设计了一个非常简单的6轴手臂版本，可用于使用Tensorflow.js训练模型。我的目标是教模型旋转所有可用轴以达到所需点。婴儿脚步参见。我的第一个测试是10x10正方形的2d地图。我将尝试讲授一个模型，该模型通过根据新位置和B点之间的距离奖励每一步来找到从A点到B点的最快路线。再来一维参见。我的第二项测试增加了另一个维度。我现在有一个10x10x10点的3d地图。我将尝试讲授一个模型，该模型通过使用与第一次测试相同的奖励系统，根据新位置和B点之间的距离奖励每一步，从而找到从A点到B点的最快路线。下一级稍后，我将尝试讲授模

2021-11-23 10:05:43 1.88MB JavaScript

1

pysc2-examples：《星际争霸II》-pysc2深度强化学习示例-源码

StartCraft II强化学习示例该示例程序建立在 pysc2（Deepmind）[ ] 基线（OpenAI）[ ] s2client-proto（暴雪）[ ] Tensorflow 1.3（谷歌）[ ] 目前的例子小地图使用Deep Q Network收集矿物碎片快速入门指南 1.获取PySC2 聚酰亚胺获取PySC2的最简单方法是使用pip： $ pip install git+https://github.com/deepmind/pysc2 另外，您必须安装baselines库。 $ pip install git+https://github.com

2021-11-22 19:59:04 4.89MB machine-learning reinforcement-learning ai deep-reinforcement-learning

1

最优控制的要点.例题.习题

最优控制的要点·例题·习题第1章数学基础第2章变分法及其在最优控制中的应用第3章极小值原理第4章时间、燃料最优控制第5章动态规划第6章线性二次型最优调节器第7章离散和采样系统的最优控制

2021-11-22 16:06:28 4.85MB 最优控制 稀缺图书

1

高频交易遇到强化学习：利用交易算法的迭代性质-研究论文

基于随机逼近理论，我们在限价单中提出了一个做市商的优化框架。在最佳清算策略的背景下，我们考虑了Lavelelle，Lehalle和Pagès的文章中类似于Avellaneda-Stoikov模型的离散时间变体。想法是利用更新出价和要价的过程的迭代性质，以使算法在反复试验的基础上（即在线学习）优化其策略。这种方法的优点是，通过算法对系统的探索是在运行时执行的，因此不需要像随机控制方法那样对价格动态进行明确的说明。正如将要讨论的那样，我们的方法的原理可以扩展到除做市商以外的更广泛的算法交易战术问题类别。

2021-11-22 12:52:42 1.06MB High-frequency trading algorithmic trading

1

二级倒立摆，matlab仿真，simulink建模仿真，lqr最优控制

绝对可以用的二级倒立摆模型。simulink建模，matlab编写s函数，使用lqr最优控制

2021-11-21 10:54:50 580KB 二级倒立摆

1

二级倒立摆，matlab仿真，simulink建模仿真，lqr最优控制

绝对可以用的二级倒立摆模型。simulink建模，matlab编写s函数，使用lqr最优控制亲测可用，谢谢支持。

2021-11-20 21:01:32 580KB 二级倒立摆

1

个人信息

热门下载

最新下载

其他资源