强化学习工具箱(DRLToolbox) 概述 该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱,提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。 配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行? 运行run_window.py可启动窗口 启动界面 主界面 设置界面 其他功能详见项目大报告 什么是强化学习? 详见报告 最终表现 以贪吃蛇为例,经过超过500万次训练(超过48小时),一共完成36171局,每局分数如
2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python
1
本文转自『深度强化学习实验室』 NeurIPS(前称NIPS)可谓人工智能年度最大盛会。每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大会的技术往往这未来几年就会演变成真正的研究甚至应用成果。NIPS2019大会将在12月8日-14日在加拿大温哥华举行,据官方统计消息,NeurIPS今年共收到投稿6743篇,再次打破了历年来的接收记录。其中接收论文1429篇。论文发表机构统计 Google共179篇 其中Deepmind-53篇 Google-Brain-Research-126篇  NVIDIA上榜9篇 斯坦福上榜79篇 MIT上榜77篇 卡耐基梅隆上榜75篇
2021-12-15 22:51:00 1.13MB rl 代理模式 优化策略
1
新闻 1月12日:v0.9.96大大提高了和的灵活性。 查看 12月10日:v0.9.95包括一个新的元组采矿器 。 查看 11月6日:v0.9.94中有一些小错误修复和改进。 文献资料 Google Colab示例 请参阅 以获取可以在Google Colab上下载或运行的笔记本的 。 PyTorch公制学习概述 该库包含9个模块,每个模块都可以在您现有的代码库中独立使用,或组合在一起以形成完整的培训/测试工作流程。 损失函数如何工作 在训练循环中使用损失和矿工 让我们初始化一个简单的 : from pytorch_metric_learning import losses loss_func = losses . TripletMarginLoss () 要在训练循环中计算损失,请传递模型计算的嵌入以及相应的标签。 嵌入的大小应为(N,embedding_size),标签的大小应为(N),其中N为批处理大小。 # your training loop for i , ( data , labels ) in enumerate ( dataloader ): optimiz
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
强化学习对话生成 应用深度强化学习进行对话生成。 又名聊天机器人
2021-12-07 15:04:42 105.86MB 系统开源
1
2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1
几乎重复的视频检索深度度量学习 该存储库包含论文《 的Tensorflow实现。它提供了用于在深度复制视频检索(NDVR)问题上进行深度度量学习(DML)网络的训练和评估的代码。在训练过程中,DML网络将接收由三元组生成器生成的视频三胞胎。该网络是基于三重态损失函数进行训练的。下图显示了网络的体系结构。为了进行评估,计算了平均平均精度( mAP )和精密记忆率曲线( PR曲线)。支持两个公开可用的数据集,即和 。 先决条件 Python Tensorflow 1.xx 入门 安装 克隆此仓库: git clone https://github.com/MKLab-ITI/ndvr-dml cd ndvr-dml 您可以通过以下方式安装所有依赖项: pip install -r requirements.txt 或者 conda install --file requirements.
2021-12-05 19:02:14 1.73MB Python
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
基于深度强化学习卡尔曼滤波锂离子电池 SOC 估计.pdf
2021-12-04 11:01:36 739KB 算法 互联网 资源