基于深度强化学习的德州扑克AI算法优化(有限注德扑) 强化学习,德州扑克,
2022-12-12 11:28:32 2MB 深度强化学习 德州扑克
基于深度强化学习的云工作流调度 有向无环图,工作流,深度强化学习,图神经网络; 蒙特卡洛树搜索
在本文中,我们提出了一种深度强化学习方法,以评估虚拟创建的自动驾驶场景的性能。 马尔可夫决策过程用于将车辆状态映射到动作。 折扣和奖励功能也包含在决策策略中。 为了处理导致强化学习的标准不稳定的高维度输入,我们使用了经验重播。 为了进一步降低相关性,我们使用迭代更新来定期更新Q值。 基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器,有助于进一步优化过程。 这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。 受现实情况启发,基于动作的奖励功能用于训练车辆。 在我们的方法中已经证明,经过多次迭代,虚拟制造的车辆会产生无碰撞运动,并执行与人类相同的驾驶行为。
2022-12-09 15:58:08 558KB Reinforcement learning; Markov decision
1
摘要深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输
2022-12-03 19:47:02 2.94MB
1
框架:pytorch/python 3.7 调度问题为:作业车间调度(JSP) 算法:Actor critic
Snake-AI:使用深度强化学习训练的Snake游戏
2022-11-10 11:18:59 2KB Python
1
超级马里奥兄弟的深度强化学习 描述 背景信息:超级马里奥兄弟(SMB)是一款流行的动作游戏,具有“真实的”环境和广阔的状态空间,是设计可玩计算机游戏的强化学习代理的理想平台。 该代理要求与世界上的各种对象和障碍进行交互,以鼓励采用知识丰富的学习方法。 方法-我们使用了OpenAI Gym提供的框架。 超级马里奥兄弟体育馆并从游戏环境中提取了信息,以使用PPO训练RL特工。 我们还向环境引入了预处理方法,例如帧缩放,随机跳帧,帧堆叠和噪声网,以提高代理的性能。 通过引入回滚操作来提高训练的稳定性,可以创建PPO的变体。 结果:该方法成功地训练了能够在20个小时的训练后完成水平的特工。 我们成功实现了一种方法,该方法可以比常规PPO实施更好地执行,在不应用数据预处理的情况下性能提高了50%,在应用数据预处理的情况下性能提高了10%。 工具 Pytorch已被用作主要的机器学习库 由于SMB
2022-11-09 22:52:04 18.11MB reinforcement-learning Python
1
用pytorch在Gym的游戏中实现Deep-Q-network深度强化学习,实时查看训练效果。 非常适合新手入门学习!!!
2022-11-04 15:05:55 242KB 强化学习
1
附有论文,交通信号灯识别源程序。采DDPG深度强化学习方法。给出了LOSS损失函数图像
1
源码基于numpy和pytorch,包含各类传统的强化学习算法,可以用于入门学习和非专业领域快速应用。
2022-10-07 21:05:40 235.2MB 强化学习 深度学习 入门
1