The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Gam
2021-11-04 14:29:24 6.45MB machine learning
1
Matlab集成的c代码高斯过程回归和分类工具箱 版本4.2。 对于GNU Octave 3.2.x和Matlab 7.x 版权所有(C)2015-2018-Carl Edward Rasmussen 版权所有(C)2015-2018-Hannes Nickisch 如何阅读 如果您想立即开始使用,请阅读下面的第1)节,并直接跳至doc / index.html中的示例。 关于这些计划 matlab程序的此集合实现并演示了在其中描述的一些算法 a)Rasmussen和Williams的书:“高斯机器学习过程”,麻省理工学院出版社,2006年 b)Nickisch和Rasmussen的文章:“二元高斯过程分类的近似”,JMLR 2008 c)Candela和Rasmussen的文章:“稀疏近似高斯过程回归的统一观点”,JMLR,2005年 d)Murray,Adams和Mackay撰写的论文:“椭圆切片采样”,AISTATS 2010 e)Neal的报告:“重要重要性抽样”,多伦多,1998年 f)Naish-Guzman和Holden的论文:“广义FITC近似”,NIPS,2007年
2021-11-04 10:48:47 8.37MB 系统开源
1
入院时预测住院时间 媒体故事: : 项目概况 预测分析是医疗保健领域越来越重要的工具,因为现代机器学习 (ML) 方法可以使用大量可用数据来预测患者的个人结果。 例如,机器学习预测可以帮助医疗保健提供者确定疾病的可能性、帮助诊断、推荐治疗和预测未来的健康状况。 对于这个项目,我选择关注医疗保健的后勤指标,即住院时间 (LOS)。 LOS 定义为入院和出院之间的时间,以天为单位。 该项目的目标是创建一个模型来预测每位患者入院时的住院时间。 该项目利用了数据库:“MIMIC 是由麻省理工学院计算生理学实验室开发的一个公开可用的数据集,包括与约 40,000 名重症监护患者相关的去识别化健康数据。它包括人口统计、生命体征、实验室测试、药物治疗, 和更多。” 结果总结 我使用默认设置拟合了五种不同的回归模型(来自 scikit-learn 库)并比较了 r 平方 (R2) 分数。 Gradi
2021-11-03 16:52:51 737KB HTML
1
pmdarima Pmdarima(最初为pyramid-arima ,表示“ py” +“ arima”)是一个统计库,旨在填补Python时间序列分析功能中的空白。 这包括: 相当于R的功能 平稳性和季节性统计检验的集合 时间序列实用程序,例如微分和逆微分 大量内生和外生的变形器和特征器,包括Box-Cox和Fourier转换 季节性时间序列分解 交叉验证实用程序 丰富的内置时间序列数据集,用于原型制作和示例 Scikit学习式管道可整合您的估算器并促进生产 Pmdarima在内部隐藏了 ,但设计时使用了熟悉scikit学习背景的用户熟悉的界面。 安装 Pmdarima在pypi上具有Windows,Mac和Linux( manylinux )的二进制和源发行版,软件包名称为pmdarima ,可以通过pip下载: $ pip install pmdarima 快速入门示例 在数据集上拟合一个简单的自动ARIMA: import pmdarima as pm from pmdarima . model_selection import train_test_split im
2021-11-03 14:34:16 1.43MB python machine-learning time-series econometrics
1
Python中的随机森林 归纳法 我开始这个项目是为了更好地了解和工作方式。 此时,分类器仅基于基尼系数,而回归模型基于均方误差。 分类器和回归模型都可以与和 例子 使用Scikit学习的基本分类示例: from randomforests import RandomForestClassifier import pandas as pd from sklearn.model_selection import train_test_split from sklearn.model_selection import GridSearchCV from sklearn.pipeline impo
1
OpenAI体育馆的飞扬的小鸟 该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。 它基于的 。 当前,环境为代理提供以下观察参数: 鸟的y位置; 鸟的垂直速度; 到下一个管道的水平距离; 下一个管道的y位置。 将来,我还打算实现一个环境版本,该版本将提供代表游戏屏幕的图像作为观察结果。 安装 要安装flappy-bird-gym ,只需运行以下命令: $ pip install flappy-bird-gym 用法 像在其他gym环境中一样,使用flappy-bird-gym非常容易。 只需导入包并使用make函数创建环境。 看下面的示例代码: import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while
1
Machine-Learning机器学习笔记 回归分析Regression Analysis(LS,LASSO,RR,RLS,BR), 聚类Clustering(KNN, EM, Mean-shift) 数字分类Digits Classification
2021-11-01 19:27:30 2.41MB Python
1
使用Python从头开始构建简单的聊天机器人(使用NLTK) 聊天机器人的历史可以追溯到1966年,当时Weizenbaum发明了一种名为ELIZA的计算机程序。 它仅从200行代码中模仿了心理治疗师的语言。 您仍然可以在这里与之交谈: 。 同样,让我们​​创建一个使用Python的NLTK库的非常基本的聊天机器人。这是一个非常简单的机器人,几乎没有任何认知技能,但是仍然是进入NLP并了解聊天机器人的好方法。 大纲 动机 这个项目的想法不是要创建具有出色认知技能的SOTA聊天机器人,而只是要利用和测试我的Python技能。这是我刚进入NLP领域并想到创建一个最初的项目之一一个简单的聊天机
2021-11-01 16:33:54 14KB python nlp machine-learning article
1
算法决策和其他类型的人工智能 (AI) 可用于预测谁将犯罪、谁将成为好员工、谁将拖欠贷款。 然而,算法决策也可能威胁到人权,例如不受歧视的权利。 该论文评估了欧洲当前针对歧视性算法决策的法律保护。 该论文表明,非歧视法,特别是通过间接歧视的概念,禁止多种类型的算法歧视。 数据保护法也有助于保护人们免受歧视。 适当执行非歧视法和数据保护法有助于保护人民。 然而,该论文表明,当应用于人工智能时,这两种法律文书都存在严重的弱点。 该文件建议如何改进现行规则的执行。 该论文还探讨了是否需要额外的规则。 该论文主张采用特定于行业的规则,而不是通用规则,并概述了一种规范算法决策的方法。
2021-11-01 16:28:39 310KB artificial intelligence machine
1