GridWorld(计划和强化学习) 包含用于规划的算法:策略迭代和价值迭代。 还包含强化学习算法:蒙特卡洛学习,Sarsa(lambda)和Q学习。 在GridWorld问题的上下文中使用这些方法,在该问题中,代理的目标是找到到达终端状态的最快路径。 game.py文件包含Grid World环境。 可以运行其他文件来执行强化学习或计划(取决于所选文件)。
2021-12-22 11:53:22 7KB Python
1
频率解析Matlab代码基于RNN的强化学习框架,可确保稳定的最佳频率 该存储库包含重现以下论文中显示的结果所必需的源代码: 作者:崔文琦和张宝森 华盛顿大学 动机 除了传统的线性下垂控制器以外,基于逆变器的资源的渗透率的提高还为我们提供了电力系统频率调节方面的更多灵活性。 由于具有快速的电源电子接口,与线性控制器相比,基于逆变器的资源可用于实现复杂的控制功能,并可能在性能上带来较大的收益。 通过将参数化为神经网络来发现这些非线性控制器,强化学习已成为一种流行的方法。 基于学习的方法面临的主要挑战是,很难对学习到的控制器强制执行稳定性约束。 另外,电力系统的时间耦合动力学将大大减慢神经网络的训练。 在本文中,我们建议对基于神经网络的控制器的结构进行显式设计,以确保所有拓扑和参数的系统稳定性。 这可以通过使用Lyapunov函数来指导其结构来完成。 基于递归神经网络的强化学习架构用于有效地训练控制器的权重。 最终的控制器仅使用本地信息并优于线性下降,以及仅通过使用强化学习而学习到的策略。 从提出的框架中学到的灵活的非线性控制器 在这里,我们展示了与线性下降控制相比,神经网络控制器的作用
2021-12-21 14:01:34 1022KB 系统开源
1
本文转自『深度强化学习实验室』 NeurIPS(前称NIPS)可谓人工智能年度最大盛会。每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大会的技术往往这未来几年就会演变成真正的研究甚至应用成果。NIPS2019大会将在12月8日-14日在加拿大温哥华举行,据官方统计消息,NeurIPS今年共收到投稿6743篇,再次打破了历年来的接收记录。其中接收论文1429篇。论文发表机构统计 Google共179篇 其中Deepmind-53篇 Google-Brain-Research-126篇  NVIDIA上榜9篇 斯坦福上榜79篇 MIT上榜77篇 卡耐基梅隆上榜75篇
2021-12-15 22:51:00 1.13MB rl 代理模式 优化策略
1
深度强化学习指南(与Keras和OpenAi体育馆一起使用) 使用Keras和OpenAi体育馆进行深度强化学习策略梯度方法的分步教程。 在这个简短的项目中,我们将使用强化学习算法(策略梯度方法-REINFORCE)训练神经网络玩Pong游戏。 如果要运行它,则只需克隆存储库,然后打开钢筋_learning_pong_keras_policy_gradients.ipynb ,然后阅读并运行笔记本 我们训练了一个简单的200个隐藏的神经元网络和一个卷积模型。 简单网络的示例播放: 简单网络玩游戏的视频( ): 卷积网络玩游戏的视频( ): 考虑到有限的时间和出于学习目的,我并不是要寻找一个受过良好训练的代理,但我希望这个项目可以帮助人们熟悉rl算法和keras的基本过程。 上面的视频花了3天时间让代理在慢速的计算机上学习。 为了获得生产结果,需要更多的培训和调整,这不是我
2021-12-12 21:46:08 9.8MB tutorial reinforcement-learning ai guide
1
RL_in_Finance 强化学习在量化金融上的应用
2021-12-12 11:50:14 1.58MB JupyterNotebook
1
文字世界 基于文本的游戏生成器和可扩展的沙箱学习环境,用于培训和测试强化学习(RL)代理。 另请访问以获取有关TextWorld及其创建者的更多信息。 对TextWorld有疑问或反馈吗? 将它们发送到或使用上面列出的Gitter频道。 安装 TextWorld需要Python 3,并且目前仅支持Linux和macOS系统。 对于Windows用户,可以将docker用作解决方法(请参阅下面的Docker部分)。 要求 TextWorld的本地组件需要一些系统库。 在基于Debian / Ubuntu的系统上,可以使用以下命令安装它们 sudo apt update && sudo apt install build-essential libffi-dev python3-dev curl git 在macOS上, brew install libffi curl git 注意:我们
1
RL-ARM 用户指南包含关于RealView 实时库构成的细节信息。 本手册包含以下几章: RL-RTX 描述了RL-ARM实时操作系统的结构,包括任务优先级、上下文切换、单个CPU下如何管理多个任务以及在RL-RTX中用到的其他一些 RTOS特性。 RL-FlashFS 描述了 RL-ARM中Flash文件系统的结构,包括文件创建、保存、读取以及在标准的flash,RAM或是存储卡设备中修改文件。 RL-TCPnet 描述了RL-ARM中TCP/IP协议栈组的结构,包括多种TCP/IP特性,以及帮助你创建可以联网的嵌入式运用程序。 RL-CAN 描述了RL-ARM中CAN设备的结构,包括如何采用RTX内核建立CAN运用程序。 Example Programs 列举了一些RL-ARM例程以及描述如何对其进行测试。 Library Reference 描述了在 RL-ARM所有的库程序。 Appendix 包含 µVision调试对话框,以及术语表。 RL-ARM 支持基于ARM的微控制器,是对RealView MDK-ARM开发工具的补充。
2021-12-10 15:00:36 2.71MB ARM RTX RealView
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
应用RTL8192ES开发设计的一款SDIO接口双通道wifi模块RL-SM02F-8192ES
2021-12-02 11:10:44 675KB RTL8192ES
1