搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

deep-rl-tensorflow：深度强化学习论文的TensorFlow实现

TensorFlow中的深度强化学习 TensorFlow实施深度强化学习论文。该实现包含： [1] [2][3][4][5]（进行中） [6]（正在进行中） [7]（进行中） [8]（正在进行中）要求 Python 2.7 或用法首先，使用以下命令安装必备组件： $ pip install -U 'gym[all]' tqdm scipy 不要忘了还要安装最新的。还请注意，您需要安装所需的依赖项gym[all] 在没有gpu的情况下使用所述的DQN模型进行训练： $ python main.py --network_header_type=nips --env_na

2022-03-19 15:58:41 567KB tensorflow deep-reinforcement-learning dqn TensorflowPython

1

Multi-Agent-RL:使用rllab的多主体强化学习算法

多主体强化学习（MARL）使用rllab通过量化在不同环境中执行的多个代理的随机梯度来开发强化学习。实验室 rllab是用于开发和评估强化学习算法的框架。它包括各种各样的连续控制任务以及以下算法的实现： rllab与完全兼容。有关说明和示例，请参见。 rllab仅正式支持Python 3.5+。对于坐在Python 2上的rllab的旧快照，请使用。 rllab支持在EC2集群上运行强化学习实验以及用于可视化结果的工具。有关详细信息，请参见。主要模块使用作为基础框架，并且我们在下支持TensorFlow。文献资料在线提供了文档： https : //rllab.readthedocs.org/en/latest/ 。引用rllab 如果您使用rllab进行学术研究，强烈建议您引用以下文章：严端，陈曦，赖因·豪特霍夫特，约翰·舒尔曼，彼得·阿比尔。 “对

2022-03-18 18:31:48 10.24MB Python

1

确定性清洁机器人的基于模型的策略迭代算法：使用基于模型的策略迭代方法的强化学习示例-matlab开发

确定性清洁机器人的基于模型的策略迭代算法。这段代码是策略迭代算法的一个非常简单的实现，对于强化学习和动态规划领域的初学者来说，它是一个有用的起点。确定性清洁机器人 MDP：清洁机器人必须收集用过的罐子，还必须为电池充电。状态描述了机器人的位置，动作描述了运动的方向。机器人可以向左或向右移动。第一个 (1) 和最后 (6) 个状态是终止状态。目标是找到一个最优策略，使任何初始状态的回报最大化。这里是policy-iteration（基于模型的策略迭代DP）。参考：算法 2-5，来自： @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}，作者={Busoniu，Lucian 和 Babuska，Robert 和 De Schutter，Bart 和 Ernst，Damien}，年={2010}, 出版商={CR

2022-03-18 18:15:06 3KB matlab

1

基于动态规划的强化学习.md

Dynamic Programming Based Reinforcement Learning Methods Reinforcement Learning Policy Iteration Learning

2022-03-18 08:51:14 10KB 基于动态规划的强化学习

1

OneMax:具有一维最大问题的强化学习的遗传算法

OneMax 针对One Max问题进行强化学习的遗传算法包括实时图形，以查看GA的结果和参数+用法语撰写的有关该算法的文章以及开发“ presentation-des-algorithmes.pdf” + .jar进行启动的研究很容易

2022-03-18 00:46:08 2.41MB Java

1

hierarchical_bipedal_controller:受生物启发的，分层的机器人双足运动控制器，使用深度强化学习进行训练

使用中央模式生成器和神经网络的双足运动的分层控制（汉堡大学智能自适应系统科学论文硕士）受生物学启发的，分层的两足机器人运动控制器。在较低级别，具有反馈路径的CPG网络（基于）控制着各个关节。 CPG网络的参数通过遗传算法进行了优化。在更高的层次上，神经网络对CPG网络的输出进行调制，以优化机器人相对于整体目标的运动。在这种情况下，目的是使步行时由于滑移或不完善的机器人模型而产生的横向偏差最小。使用（深度强化学习算法）训练神经网络。这项工作是使用。即使在存在系统性和非系统性错误的情况下，分级控制器也可以使横向偏差最小化。路径为红色的机器人仅使用CPG网络。对于蓝色路径，使用了分层控制器。高亮显示的情况（从左起第4个）显示了性能最佳的超参数设置。纸在ICDL-Epirob 2019上展示的论文可以在或进行查看。论文我的硕士学位论文可以在查看或下载。视频在可

2022-03-17 23:04:56 1.46MB Python

1

MY__MPCController3_pid_最优控制_最优pid_源码

MPC控制，在当今过程控制中，PID当然是用的最多的控制方法，但MPC也超过了10%的占有率。MPC是一个总称，有着各种各样的算法。其动态矩阵控制（DMC）是代表作。DMC采用的是系统的阶跃响应曲线，其突出的特点是解决了约束控制问题。那么是DMC是怎么解决约束的呢？在这里只给出宏观的解释，而不做详细的说明。DMC把线性规划和控制问题结合起来，用线性规划解决输出约束的问题，同时解决了静态最优的问题，一石二鸟，在工业界取得了极大的成功。

2022-03-17 21:19:25 4KB pid 最优控制 最优pid

A Unified Computational Approach to Optimal Control Problems

经典的最优控制教材国外比较经典的希望大家多多评

2022-03-17 17:45:35 24.55MB 最优控制

1

强化学习 reinforcement learning

Richard S.Sutton和Andrew G.Barto所著。学习强化学习的人都应该知道这两个人。本资料为旁听Rich Sutton课时老师推荐的阅读材料之一，本资料仅限个人使用，分三个压缩包上传。此为第三个

2022-03-17 10:50:41 12.52MB 强化学习 reinforcement learning

1

强化学习 reinforcement learning

Richard S.Sutton和Andrew G.Barto所著。学习强化学习的人都应该知道这两个人。本资料为旁听Rich Sutton课时老师推荐的阅读材料之一，本资料仅限个人使用，分三个压缩包上传。此为第二个

2022-03-17 10:15:00 14.31MB 强化学习 reinforcement learning

1

个人信息

热门下载

最新下载

其他资源