强化学习入门的作业
2021-12-29 15:06:28 10KB RL
1
强化学习入门的作业
2021-12-29 15:06:28 10KB RL
1
rl入门作业
2021-12-29 15:06:27 105KB RL
1
我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多 任务算法可以“端到端”学习策略:直接从原始像素输入。
2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制
1
最近做毕业设计把资料共享一下吧-基于LQR的直升机最优控制系统的设计.pdf 如题:开始发了20多篇但不知怎么提示不成功,先发小点试一下 作为回报,希望高手们能提供一下如下系统的控制策略 Transfer function:              -3e007 s^2 7.2e012 s - 5.76e017 ----------------------------------------------------------- s^4 2.403e005 s^3 1.926e010 s^2 4.92e012 s 7.58e015 做了好些试验都不理想,可以用PID和LQR
2021-12-28 18:28:58 1.08MB matlab
1
本书作者是Richard S. Sutton,是增强学习领域经典的书籍。目前还没有正式出版,一直处于更新的状态,这是六月的最新版。
2021-12-28 07:46:27 10.68MB 强化学习
1
自动驾驶中的深度强化学习 最适合离散操作:4名工人,学习率1e-4 无法使其在连续动作空间中正常工作; 它产生的动作出了问题 A3C创意 总览 人工神经网络的架构
2021-12-27 23:11:40 224.81MB python multi-threading deep-neural-networks latex
1
非参数模型类 在非参数模型类中主要包括脉冲响应模型和频域描述模型。 如下图,假设系统为线性系统,u输入,y输出,v噪声,输入输出关系为 其中q为时间平移算子,序列g(k)为对象的脉冲响应模型,v(t)是不可测量的噪声干扰。频谱表示为 u v y 线性对象
2021-12-27 22:57:12 186KB 动态系统 最优控制
1
PyTorch4 tutorial of: actor critic / proximal policy optimization / acer / ddpg / twin dueling ddpg / soft actor critic / generative adversarial imitation learning / hindsight experience replay
2021-12-27 22:36:01 282KB Python开发-机器学习
1
本书内容包括:绪论、数学基础、最优控制中的基本问题、最优控制的计算方法、规范型最优控制问题、最优脉冲控制问题等。
2021-12-27 15:31:28 5.56MB 脉冲 优化控制
1