搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

基于强化学习的自动炒股交易，内含数据拉取脚本以及强化学习训练脚本

2022-12-12 11:28:30 20KB 强化学习 自动炒股 数据处理

使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC 网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.

2022-12-11 22:14:21 218KB 强化学习 K-均值聚类算法 Sarsa学习连续状态自适应离散化

1

使用深度强化学习的虚拟自动驾驶汽车-研究论文

在本文中，我们提出了一种深度强化学习方法，以评估虚拟创建的自动驾驶场景的性能。马尔可夫决策过程用于将车辆状态映射到动作。折扣和奖励功能也包含在决策策略中。为了处理导致强化学习的标准不稳定的高维度输入，我们使用了经验重播。为了进一步降低相关性，我们使用迭代更新来定期更新Q值。基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器，有助于进一步优化过程。这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。受现实情况启发，基于动作的奖励功能用于训练车辆。在我们的方法中已经证明，经过多次迭代，虚拟制造的车辆会产生无碰撞运动，并执行与人类相同的驾驶行为。

2022-12-09 15:58:08 558KB Reinforcement learning; Markov decision

1

深度强化学习综述_刘全1

摘要深度强化学习是人工智能领域的一个新的研究热点．它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输

2022-12-03 19:47:02 2.94MB

1

基于状态观测器的线性离散时间系统的最优预见控制

研究了带有预见信息的线性离散时间系统的状态观测器,并将其应用到预见控制系统.为了满足设计观测器的需要,首先导出了包含可预见的目标值信号和干扰信号的扩大误差系统,并由此得到最优预见控制器.在设计状态观测器时,通过改写输出方程充分利用了可预见的目标值信号和干扰信号.设计的状态观测器针对原系统是全维观测器,而针对扩大误差系统则是降维观测器.最后通过数值仿真证明了所设计的状态观测器的有效性.

2022-12-02 09:04:49 896KB 离散时间系统; 状态估计; 预见控制; 最优控制

1

现代控制理论-刘豹，唐万生-第六章最优控制答案-精细版-较完整版

现代控制理论，刘豹，唐万生，第3版第6章最优控制研究生专业课“最优控制” 答案-精装版步骤详实

2022-12-01 14:26:31 33.83MB 最优控制 现代控制理论 第六章答案

1

RL-FlappyBird:使用强化学习训练FlappyBird

RL飞扬的鸟概述该项目是强化学习的基本应用。它集成了以使用DQN来训练代理。预训练模型在单个GPU上以3M步进行训练。您可以找到解释培训过程的，或。构建项目并运行该项目支持使用Maven进行构建，您可以使用以下命令进行构建： mvn compile 以下命令将开始在没有图形的情况下进行训练： mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。您也可以尝试使用预先训练的体重进行训练： mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试，您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki

2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn

1

深度强化学习求解作业车间调度问题的python实现

框架：pytorch/python 3.7 调度问题为：作业车间调度（JSP）算法：Actor critic

2022-11-24 16:41:56 100KB python 作业车间调度 pytorch 深度强化学习

learning-to-communicate, 多Agent强化学习的学习与学习.zip

learning-to-communicate, 多Agent强化学习的学习与学习基于的多agent增强学习学习方法研究杰克。Foerster ，Yannis M 。 Assael，Nando de Freitas，Shimon Whiteson 我们考虑在环境中使用多代理感知和行为的问题，目标是最大化它们的共享

2022-11-19 23:33:10 38KB 开源

1

gobangAI:AI大作业，实现了棋盘检测，博弈树AI，遗传算法AI，强化学习AI，结果一般

gobangAI AI大作业，实现了棋盘检测，博弈树AI，遗传算法AI，强化学习AI，结果一般

2022-11-17 19:05:02 9.27MB Python

1

个人信息

热门下载

最新下载

其他资源