DQN综述(修正版).pdf
2022-12-13 21:21:11 642KB 强化学习
1
# Inverted-Pendulum 强化学习大作业1 倒立摆 包括Q值迭代、SARSA、DQN三种算法。 game的my_Pendulum是按gym的环境定义的我自己的倒立摆环境,其参数与game的Pendulum-v0不同
2022-12-12 11:28:30 22KB 强化学习 DQN 倒立摆
RL飞扬的鸟 概述 该项目是强化学习的基本应用。 它集成了以使用DQN来训练代理。 预训练模型在单个GPU上以3M步进行训练。 您可以找到解释培训过程的,或。 构建项目并运行 该项目支持使用Maven进行构建,您可以使用以下命令进行构建: mvn compile 以下命令将开始在没有图形的情况下进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。 您也可以尝试使用预先训练的体重进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试,您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki
2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn
1
pytorch-DQN DQN的Pytorch实现 DQN 最初的Q学习使用表格方法(有关更多详细信息和实现,请参见 )来解决,但是,表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。 例如,环境为210x180黑白像素的游戏。 将有$ 2 ^ {180 * 210} $个可能的状态,对于一个表来说,这太多了。 DeepMind通过深度神经网络以DQN形式将DQN形式的深度学习和Q学习相结合,以近似值,首先在游戏中击败人类。 简而言之,DQN用深度神经网络(CNN或DNN)替换了表格,并使用目标网络来执行Bellman方程更新。 为了实现它,使用了一些技巧,例如目标网络和体验重播。 引入目标网络以收敛模型,因为频繁更新会使模型处于不稳定状态。 体验重播使用缓冲区存储所有过去(状态,动作,next_state)对,并通过对过去的体验进行采样来训练模型,这有
2022-11-23 09:47:12 1.5MB Python
1
强化学习 dqn打砖块 参数文件,最高回报七十四分
2022-11-05 14:06:04 6.44MB 参数文件
1
详细研究了深度Q-学习算法,它形成了深度Q网络(DQN)的基础这可能是当今强化学习中最具创新性的领域。这里将逐步介绍DQN,包括一些改变游戏规则的创新,如体验回放,以准确了解它们是如何帮助dqn在首次引入时实现世界一流的结果的。
2022-10-31 09:08:47 1.29MB 强化学习 机器学习 DQN
1
DQN实现matlab强化学习,解决倒立摆问题
2022-10-28 16:17:05 1KB pendulum SIMULINK MATLAB实现DQN DQN
1
第7课 强化学习中的深度Q网络(DQN)
2022-10-17 13:05:36 570KB 强化学习 DQN
1
DQN_Pytorch_ROS 该项目的目标是在OpenAI Gym和Gazebo提供的模拟环境中使用Pytorch训练强化学习算法,并通过ROS(机器人操作系统)控制代理。 最后,经过训练的模型将使用称为Turtlebot的机器人部署到现实世界中。 环境,代理商,任务,行动和奖励 由OpenAI Gym和Gazebo生成的模拟环境是一个迷宫,该代理是一个虚拟的Turtlebot,其顶部具有一个带激光雷达的移动平台。 解决的任务是学习一种策略,以使机器人在每种状态下在捕获和过滤的激光束方向上与任何障碍物之间的距离都不比可配置距离(默认为0.2米)更近。 可以通过变量在文件$HOME/python3_ws/src/openai_ros/openai_ros/src/openai_ros/task_envs/turtlebot2/config/turtlebot2_maze.yaml此值:
2022-10-03 23:26:18 21.18MB Python
1
DQN-PyTorch 实现PyTorch 目录: 项目结构: ├── agents | └── dqn.py # the main training agent for the dqn ├── graphs | └── models | | └── dqn.py | └── losses | | └── huber_loss.py # contains huber loss definition ├── datasets # contains all dataloaders for the project ├── utils # utilities folder containing input extraction, replay memory, config parsing, etc | └── assets | └── replay_memory.py |
1