基于深度强化学习的德州扑克AI算法优化(有限注德扑) 强化学习,德州扑克,
2022-12-12 11:28:32 2MB 深度强化学习 德州扑克
基于深度强化学习的云工作流调度 有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索
# Inverted-Pendulum 强化学习大作业1 倒立摆 包括Q值迭代、SARSA、DQN三种算法。 game的my_Pendulum是按gym的环境定义的我自己的倒立摆环境,其参数与game的Pendulum-v0不同
2022-12-12 11:28:30 22KB 强化学习 DQN 倒立摆
基于强化学习的自动炒股交易,内含数据拉取脚本以及强化学习训练脚本
2022-12-12 11:28:30 20KB 强化学习 自动炒股 数据处理

使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC 网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.

1
在本文中,我们提出了一种深度强化学习方法,以评估虚拟创建的自动驾驶场景的性能。 马尔可夫决策过程用于将车辆状态映射到动作。 折扣和奖励功能也包含在决策策略中。 为了处理导致强化学习的标准不稳定的高维度输入,我们使用了经验重播。 为了进一步降低相关性,我们使用迭代更新来定期更新Q值。 基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器,有助于进一步优化过程。 这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。 受现实情况启发,基于动作的奖励功能用于训练车辆。 在我们的方法中已经证明,经过多次迭代,虚拟制造的车辆会产生无碰撞运动,并执行与人类相同的驾驶行为。
2022-12-09 15:58:08 558KB Reinforcement learning; Markov decision
1
摘要深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输
2022-12-03 19:47:02 2.94MB
1
RL飞扬的鸟 概述 该项目是强化学习的基本应用。 它集成了以使用DQN来训练代理。 预训练模型在单个GPU上以3M步进行训练。 您可以找到解释培训过程的,或。 构建项目并运行 该项目支持使用Maven进行构建,您可以使用以下命令进行构建: mvn compile 以下命令将开始在没有图形的情况下进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。 您也可以尝试使用预先训练的体重进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试,您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki
2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn
1
框架:pytorch/python 3.7 调度问题为:作业车间调度(JSP) 算法:Actor critic
learning-to-communicate, 多Agent强化学习的学习与学习 基于的多agent增强学习学习方法研究杰克。Foerster ,Yannis M 。 Assael,Nando de Freitas,Shimon Whiteson 我们考虑在环境中使用多代理感知和行为的问题,目标是最大化它们的共享
2022-11-19 23:33:10 38KB 开源
1