使用Pytorch和多项式分布采样实现DDQN算法 DDQN和Nature DQN一样,也有一样的两个Q网络结构。在Nature DQN的基础上,通过解耦目标Q值动作的选择和目标Q值的计算这两步,来消除过度估计的问题。
2021-10-28 10:11:39 49KB Pytorch DDQN 深度强化学习
1
DQN-雅达利 深度Q网络实现。 实施从论文《和得出。 结果 游戏视频-DQN Nature Paper 每集奖励 实施摘要 DQN自然架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:32个8×8滤光片,步幅为4 转换层2:64个4×4步幅的滤镜 转换层3:64个3×3滤光片,步幅为1 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 DQN Neurips架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:16个8×8滤光片,步幅为4 转换层2:32个4×4步幅的滤镜 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 其他参数 优化器:RMSProp 批量大小:32 电子贪婪:0.1 怎么跑 创建一个新环境 例子: conda
2021-10-28 09:30:51 19.97MB machine-learning reinforcement-learning pong pytorch
1
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(DQN)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
1
最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。
1
PyTorch中的深度度量学习 Learn deep metric for image retrieval or other information retrieval. 我们的XBM被提名为2020年CVPR最佳论文。 知乎XBM上的一个博客 我写了一个知乎文章,通俗快速解读了XBM想法动机: 欢迎大家阅读指点! 推荐最近发表的不是我写的DML优秀论文: 来自康奈尔科技大学和Facebook AI 摘要:过去四年来,深度度量学习论文一直宣称准确性方面取得了长足进步,通常比十年前方法的性能提高一倍还多。 在本文中,我们将仔细研究该领域,以了解是否确实如此。 我们在这些论文的实验设置中发现了缺陷,并提出了一种评估度量学习算法的新方法。 最后,我们提供的实验结果表明,随着时间的推移,这种改进最多只能算是微不足道了。 XBM:DML的新Sota方法,被CVPR-2020接受为口服,并被提名
2021-10-17 14:51:47 44KB image-retrieval cvpr xbm deep-metric-learning
1
这是论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》的pytorch复现,直接使用其开源环境Multi-Agent Particle Environment,运行main.py即可进行运行程序
深度强化学习,用于具有多样性代表奖赏的无监督视频摘要。 使用python = 3.x实现 要求 python = 3.x 火炬 显卡 制表 开始吧 git clone https://github.com/TorRient/Video-Summarization-Pytorch cd Video-Summarization-Pytorch mkdir dataset 准备数据集 将视频放入文件夹数据集中 python create_data.py --input dataset --output dataset/data.h5 分割 python create_split.py -d dataset/data.h5 --save-dir dataset --save-name splits --num-splits 5 如何训练 python train_video_summar
1
德鲁 无线供电的移动边缘计算网络中在线计算卸载的深度强化学习 使用Python代码重现我们的DROO算法以进行无线供电的移动边缘计算[1],该算法使用随时间变化的无线信道增益作为输入并生成二进制卸载决策。 这包括: :基于实现的WPMEC的DNN结构,包括训练结构和测试结构。 :基于。 :基于实现。 :解决资源分配问题 :所有数据都存储在此子目录中,包括: data _#。mat :训练和测试数据集,其中#= {10,20,30}是用户编号 :针对DROO运行此文件,包括设置系统参数,基于 :基于。 :基于实现。 :当WD的权重​​交替时,运行此文件以评估DROO的性能 demo_on_off.py :当某些WD随机打开/关闭时,运行此文件以评估DROO的性能 引用这项工作 L. Huang,S。Bi和YJ Zhang,“用于无线移动边缘计算网络中在线计算
2021-10-11 17:51:48 24.01MB Python
1
关于论文Deep Reinforcement Learning based Patch Selection for Illuminant Estimation的汇报PPT
2021-10-11 08:56:25 1.67MB 深度强化学习
1
当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。
2021-10-09 11:22:31 2.71MB 深度学习 持续学习
1