使用Pytorch和多项式分布采样实现DDQN算法 DDQN和Nature DQN一样,也有一样的两个Q网络结构。在Nature DQN的基础上,通过解耦目标Q值动作的选择和目标Q值的计算这两步,来消除过度估计的问题。
2021-10-28 10:11:39 49KB Pytorch DDQN 深度强化学习
1
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(DQN)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
1
最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。
1
这是论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》的pytorch复现,直接使用其开源环境Multi-Agent Particle Environment,运行main.py即可进行运行程序
深度强化学习,用于具有多样性代表奖赏的无监督视频摘要。 使用python = 3.x实现 要求 python = 3.x 火炬 显卡 制表 开始吧 git clone https://github.com/TorRient/Video-Summarization-Pytorch cd Video-Summarization-Pytorch mkdir dataset 准备数据集 将视频放入文件夹数据集中 python create_data.py --input dataset --output dataset/data.h5 分割 python create_split.py -d dataset/data.h5 --save-dir dataset --save-name splits --num-splits 5 如何训练 python train_video_summar
1
德鲁 无线供电的移动边缘计算网络中在线计算卸载的深度强化学习 使用Python代码重现我们的DROO算法以进行无线供电的移动边缘计算[1],该算法使用随时间变化的无线信道增益作为输入并生成二进制卸载决策。 这包括: :基于实现的WPMEC的DNN结构,包括训练结构和测试结构。 :基于。 :基于实现。 :解决资源分配问题 :所有数据都存储在此子目录中,包括: data _#。mat :训练和测试数据集,其中#= {10,20,30}是用户编号 :针对DROO运行此文件,包括设置系统参数,基于 :基于。 :基于实现。 :当WD的权重​​交替时,运行此文件以评估DROO的性能 demo_on_off.py :当某些WD随机打开/关闭时,运行此文件以评估DROO的性能 引用这项工作 L. Huang,S。Bi和YJ Zhang,“用于无线移动边缘计算网络中在线计算
2021-10-11 17:51:48 24.01MB Python
1
关于论文Deep Reinforcement Learning based Patch Selection for Illuminant Estimation的汇报PPT
2021-10-11 08:56:25 1.67MB 深度强化学习
1
基于深度强化学习的量化投资策略计算机研究.docx
2021-10-08 23:11:32 205KB C语言
使用Keras-RL和Mesa进行深度强化学习 文献资料 Keras-RL: : 梅萨(Mesa): : 安装 git clone git@github.com:eescriba/mesa-keras-rl.git cd mesa-keras-rl pip install pipenv pipenv install 跑步 mesa runserver [env_run_path]
2021-10-08 22:34:39 621KB JupyterNotebook
1
针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。
2021-10-06 19:58:34 1.39MB 移动边缘计算 计算卸载 任务调度
1