海防环境的导弹目标选择任务 流程介绍:敌方舰艇以固定阵型排列,我方18枚导弹依次选择攻击目标并以直线轨迹攻击,攻击过程中若进入防御舰艇的防御长度内则有一定几率被拦截,舰艇被攻击一定次数后死亡,同样的,可以根据任务需求,通过改变不同类型的舰艇艇的价值来调整导弹攻击的侧重点,综上,需要合理选择攻击目标和攻击并以预期的伤害最大化 状态空间定义为18个导弹的目标选择,初始化为[-1] * 18,每进行一个步骤填进去一个动作(攻击目标)动作空间定义为可以选择的舰艇数量,如果有7个舰艇则动作空格〜[0,6],只能取整数 固定阵型默认类型,如下所示,可在配置文件夹中设计新的阵型 导弹双重两种攻击方式: 位置攻击:18个导弹排成两排,位置固定,按照编号顺序选择攻击目标 角度攻击:每个导弹首先选择攻击目标,然后根据角度偏向确定自己的发射位置 文件:train.py:训练文件,负责训练DQN生成指定环境指定
2021-04-11 17:04:42 80.67MB Python
1
使用PyTorch和Unity ML-Agent进行深度Q网络(DQN)强化学习 一个简单的示例,说明如何使用PyTorch和ML-Agents环境实现基于矢量的DQN。 深度强化学习(DRL)中的Udacity Danaodgree项目 该存储库包含以下与DQN相关的文件: dqn_agent.py-> dqn-agent实现 replay_memory.py-> dqn-agent的重播缓冲区实现 model.py->用于基于向量的DQN学习的示例PyTorch神经网络 train.py->初始化并实施DQN代理的训练过程。 test.py->测试受过训练的DQN代理 根据Udacit
1
Atari Pong中的深度强化学习算法 概括 此应用程序的目标是找出深度Q学习(DQN)在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。 在DQN之上,测试了对相同算法的其他改进,包括多步DQN,Double DQN和Dueling DQN。 从下图可以看出,基本DQN仅需玩约110场游戏即可达到类似于人的准确性,而经过300场游戏即可达到极高的准确性。 此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。 基本DQN:第1集与第216集 环保环境 Atari 1600仿真器由OpenAI制作,您可以在59种不同的游戏上测试您的强化算法。 使用深度强化学习,因为输入是当前帧(210x160x3)的RGB图片。 由于RGB图片的计算量太大,因此变成了灰度。 接下来是将图像缩减采样并将其剪切到可播放区域,该区域的大小为84x84x1。 灰度,下采样和裁剪
2021-03-27 20:32:26 1.3MB Python
1
不用强化学习工具箱的DQN算法案例与matlab代码,方便大家学习使用。可以在此基础上直接更改编写自己的项目
2021-03-18 22:17:25 872KB DQN
1
DQN+PyTorch+gym倒立摆登山车源码&模型,博文https://blog.csdn.net/qq_33309098/article/details/104588035
2021-03-17 14:51:01 1.86MB 强化学习 pytorch
1
强化学习算法DQN玩五子棋
2021-03-14 18:11:46 4.1MB AI 强化学习 DQN 玩五子棋
1
来自github的工程代码,21/03/03版本 强化学习框架 小雅 内置readme可以查看 如侵权请联系博主马上删除
2021-03-03 16:09:09 4.6MB 强化学习 DQN D3QN
1
深度强化学习系列论文,包括最基础的DQNDQN模型改进,DQN算法改进,分层DRL,基于策略梯度的深度强化学习等等,论文基本源自顶会
2021-02-23 10:01:18 69.27MB 深度强化学习 DQN
1
使用强化学习进行赛车的自动驾驶功能实现,具体使用DDPG算法
2019-12-21 21:58:13 14.31MB DQN RL
1