简单介绍IRL的理论,发表使用可以
2021-07-06 22:05:55 483KB 强化学习
1
TensorFlow强化学习快速入门指南 这是Packt发布的的代码库。 使用Python进行培训和部署智能的自学习代理程序并开始运行 这本书是关于什么的? 强化学习算法的进步使得将其用于几种不同工业应用中的最佳控制成为可能。 通过这本书,您将把强化学习应用于从计算机游戏到自动驾驶的一系列问题。 本书涵盖以下激动人心的功能: 了解现代强化学习算法背后的理论和概念 编码具有离散或连续动作的最新强化学习算法 开发强化学习算法,并将其应用于训练代理玩计算机游戏 探索DQN,DDQN和Dueling架构以使用TensorFlow玩Atari的Breakout 使用A3C播放CartPole和LunarLander 如果您觉得这本书适合您,请立即获取! 说明和导航 所有代码都组织在文件夹中。 例如,Chapter02。 该代码将如下所示: import numpy as np
2021-07-05 23:15:27 6.31MB Python
1
TF-Agents:一个可靠,可扩展且易于使用的TensorFlow库,用于上下文强盗和强化学习。 使实施,部署和测试新的Bandits和RL算法更加容易。 它提供了经过测试的模块化组件,可以对其进行修改和扩展。 它具有良好的测试集成和基准测试,可实现快速代码迭代。 首先,我们建议您查阅我们的Colab教程之一。 如果您需要RL简介(或快速回顾),请。 否则,请查看我们的以使代理在Cartpole环境中启动并运行。 当前稳定版本的API文档位于。 TF-Agents正在积极开发中,接口可能随时更改。 欢迎提供反馈和意见。 目录 代理商 在TF-Agent中,RL算法的核心元素被实现为Ag
1
彩虹 Rainbow:结合深度强化学习的改进 。 结果和预先训练的模型可以在找到。 DQN Double DQN 优先体验重播 决斗网络体系结构 多步骤退货 分布式RL 吵网 使用默认参数运行原始Rainbow: python main.py 可以使用以下选项运行数据有效的Rainbow (请注意,实际上,此处通过手动设置内存容量与最大时间步数相同来实现“无界”内存): python main.py --target-update 2000 \ --T-max 100000 \ --learn-star
1
用于多无人机对抗的多主体强化学习算法 这是“在战斗任务中进行多智能体强化学习的有效培训技术”的源代码,我们构建了源自多个无人驾驶飞机的战斗场景的多智能体对抗环境。 首先,我们考虑使用两种类型的MARL算法来解决这一对抗问题。 一种是从用于多代理设置(MADQN)的经典深度Q网络扩展而来的。 另一个是从最新的多主体强化方法,多主体深度确定性策略梯度(MADDPG)扩展而来。 我们比较了两种方法的初始对抗情况,发现MADDPG的性能优于MADQN。 然后以MADDPG为基准,提出了三种有效的训练技术,即场景转移训练,自学训练和规则耦合训练。 规则耦合红色特工vs随机移动蓝色特工 规则耦合的红色特工和蓝色特工通过自我比赛训练
2021-06-29 16:24:16 5.25MB 系统开源
1
自动股票交易的深度强化学习:整体策略 该存储库提供了代码 的Jupiter Notebook重新实现了这种整体策略。 抽象的 股票交易策略在投资中起着至关重要的作用。 但是,在复杂而动态的股票市场中设计一种有利可图的战略是具有挑战性的。 在本文中,我们提出了一种深度集成强化学习方案,该方案可以通过最大化投资回报来自动学习股票交易策略。 我们训练一种深度强化学习代理,并使用三种基于行为者批评的算法来获得整体交易策略:近距离策略优化(PPO),优势参与者批评者(A2C)和深度确定性策略梯度(DDPG)。 集成策略继承并集成了三种算法的最佳功能,从而可以稳健地适应不同的市场条件。 为了避免在具有连续动作空间的训练网络中消耗大量内存,我们采用按需加载方法来处理非常大的数据。 我们在30支具有足够流动性的道琼斯股票上测试了我们的算法。 评估了具有不同强化学习算法的交易代理商的表现,并与道琼斯工业平均
1
软件定义网络中的DDoS仿真 该项目旨在为使用深度强化学习的DDoS缓解提供基本框架。 该网络使用Mininet(基于软件定义网络)实现。 入门 克隆存储库 git clone https://github.com/santhisenan/SDN_DDoS_Simulation.git 先决条件 安装依赖项 安装Mininet 安装OpenVSwitch 安装Ryu 安装Tensorflow 安装Keras 克隆ryu存储库并将ryu / ryu文件夹复制到SDN_DDoS_Simulation根目录 测验 根据测试目的修改simple_tree_top.py cd SDN_DDo
2021-06-28 08:24:20 878KB reinforcement-learning tensorflow sdn ryu
1
《强化学习导论》摘录之强化学习与有监督学习、监督学习的区别; Reinforcement Learning: An Introduction; The differences between reinforcement learning and supervised learning, unsupervised learning.
1
DQ深度学习Deep Reinforcement Learning with Double Q-Learning.pdf
2021-06-22 18:06:00 1.14MB 深度学习
1
俄罗斯方块 使用深度强化学习的机器人。 演示版 经过一些训练后,首先获得10000分。 它是如何工作的 强化学习 首先,代理将进行随机移动,将状态和给定的奖励保存在有限的队列(重播内存)中。 在每个情节(游戏)结束时,代理将使用重播内存的随机样本来训练自己(使用神经网络)。 随着玩越来越多的游戏,代理变得越来越聪明,得分越来越高。 由于在强化学习中,一旦特工发现了良好的“路径”,它就会坚持下去,因此它也被视为探索变量(随时间而减小),因此特工有时会选择一种随机动作,而不是它认为最佳的动作。 。 这样,它可以发现新的“路径”以获得更高的分数。 训练 培训基于。 相反,只使用所获得的当前状态,并奖励对网络进行训练的,它是用来Q学习(即认为从当前状态到未来的一个过渡),以找出什么是考虑到所有给定状态的最佳成绩未来的回报,即算法不是贪婪的。 这使代理可以采取一些可能无法立即获得回报的举动,因此以
1