The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Gam
2021-11-04 14:29:24 6.45MB machine learning
1
自述文件 模糊Q学习 Matlab实现的模糊Q学习,可通过在线策略学习使云自动扩展更智能。 演示(在Matlab环境中): setup demo 如果使用此代码,请引用以下文章: P. Jamshidi, A. Sharifloo, C. Pahl, H. Arabnejad, A. Metzger, G. Estrada, "Fuzzy Self-Learning Controllers for Elasticity Management in Dynamic Cloud Architectures", in Proc. of IEEE/IFIP WICSA and CompArch, (April 2016). 接触 如果您发现错误,想要请求功能,或者有任何疑问或反馈,请发送电子邮件至 。 我们希望听到人们使用我们的代码。 执照 该代码在下。
2021-11-03 15:37:47 1.73MB cloud reinforcement-learning q-learning autoscaling
1
您是否希望RL代理商在Atari上继续前进? 彩虹就是您所需要的! 这是从DQN到Rainbow的分步教程。 每章都包含理论背景和面向对象的实现。 只需选择您感兴趣的任何主题,然后学习! 您甚至可以在智能手机上使用Colab立即执行它们。 如果您有任何改善建议,请随时提出问题或提出要求。 :) 如果您想要有关策略渐变方法的教程,请参阅。 内容 DQN [ ] [ ] DoubleDQN [ ] [ ] PriorityizedExperienceReplay [ ] [ ] DuelingNet [ ] [ ] NoisyNet [ ] [ ] CategoricalDQN [ ] [ ] N-stepLearning [ NBViewer ] [ Colab ] 彩虹[ NBViewer ] [ Colab ] 先决条件 此存储库已在Anac
2021-11-03 12:21:10 739KB reinforcement-learning rainbow pytorch dqn
1
具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
OpenAI体育馆的飞扬的小鸟 该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。 它基于的 。 当前,环境为代理提供以下观察参数: 鸟的y位置; 鸟的垂直速度; 到下一个管道的水平距离; 下一个管道的y位置。 将来,我还打算实现一个环境版本,该版本将提供代表游戏屏幕的图像作为观察结果。 安装 要安装flappy-bird-gym ,只需运行以下命令: $ pip install flappy-bird-gym 用法 像在其他gym环境中一样,使用flappy-bird-gym非常容易。 只需导入包并使用make函数创建环境。 看下面的示例代码: import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while
1
用于交通信号控制的Deep Q学习代理 深入的Q-Learning强化学习代理尝试在交叉路口选择正确的交通信号灯相位以最大化交通效率的框架。 我已将其上传到此处,以帮助任何人寻找通过SUMO进行深度强化学习的良好起点。 这段代码是从我的硕士论文中提取的,它代表了我的论文工作所用代码的简化版本。 我希望您可以找到此存储库对您的项目有用。 入门 这些说明将为您提供在本地计算机上运行的项目的副本。 我认为,以下是最简单的步骤,以便以最少的工作量从头开始运行算法。 强烈建议使用配备NVIDIA GPU的计算机。 下载Anaconda()并安装。 下载SUMO( )并安装。 按照简短指南正确正确地安装tensorflow-gpu,不会出现问题。 简而言之,该指南告诉您打开Anaconda Prompt或任何终端,然后键入以下命令: conda create --name tf_gpu ac
1
Gym-Duckietown 于OpenAI Gym的自动驾驶汽车模拟器环境。 如果要在出版物中引用此存储库,请使用此bibtex: @misc{gym_duckietown, author = {Chevalier-Boisvert, Maxime and Golemo, Florian and Cao, Yanjun and Mehta, Bhairav and Paull, Liam}, title = {Duckietown Environments for OpenAI Gym}, year = {2018}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/duckietown/gym-duckietown}},
2021-10-28 17:10:43 8.88MB simulator reinforcement-learning robot openai-gym
1
DQN-雅达利 深度Q网络实现。 实施从论文《和得出。 结果 游戏视频-DQN Nature Paper 每集奖励 实施摘要 DQN自然架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:32个8×8滤光片,步幅为4 转换层2:64个4×4步幅的滤镜 转换层3:64个3×3滤光片,步幅为1 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 DQN Neurips架构实施 输入:84×84×4图像(使用历史记录的最后4帧) 转换层1:16个8×8滤光片,步幅为4 转换层2:32个4×4步幅的滤镜 完全连接1:完全连接,由256个整流器单元组成 输出:完全连接的线性层,每个有效动作均具有单个输出。 其他参数 优化器:RMSProp 批量大小:32 电子贪婪:0.1 怎么跑 创建一个新环境 例子: conda
2021-10-28 09:30:51 19.97MB machine-learning reinforcement-learning pong pytorch
1
概述 这是关于强化学习的注释和示例的集合。 这些内容基于Richard S. Sutton和Andrew G. Bartow撰写的《》第二版。 内容 该存储库中包含以下注释和示例: 第2章-多臂强盗 第三章-有限马尔可夫决策过程 第4章-动态编程 第5章-蒙特卡洛方法 笔记 二十一点 解决二十一点 二十一点状态值的非政策估计 无限方差 赛马场 第六章-时差学习 笔记 随机游走 批量更新下的随机游走 风之网格世界 悬崖漫步
2021-10-25 19:20:27 5.48MB F#
1
用Java进行动手强化学习[视频] 这是出版的的代码库。 它包含从头到尾完成视频课程所需的所有支持项目文件。 关于视频课程 数据科学和机器学习世界中存在无法通过监督学习或无监督学习解决的问题。 如果标准ML工程师的工具包不够用,您可以学习和使用一种新方法:强化学习。 本课程重点介绍Java生态系统中的关键强化学习技术和算法。 每个部分都涵盖了RL概念并解决了实际问题。 您将学习解决具有挑战性的问题,例如创建机器人,决策,随机悬崖行走等等。 然后,您还将涵盖深度强化学习,并学习如何在RL算法中使用DeepLearning4J添加深度神经网络。 在本课程结束时,您将准备解决强化学习问题,并利用最强大的Java DL库创建强化学习算法。 您将学到什么 利用ND4J和RL4J进行强化学习 使用马尔可夫决策过程解决购物车极点问题 使用QLConfiguration来配置您的强化学习算法 利用动
2021-10-25 19:14:42 21.71MB Java
1