强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) [1] ,以及主动强化学习(active RL)和被动强化学习(passive RL) [2] 。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习 [1] 。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数 [3] 。
2021-09-14 11:32:23 2.74MB 强化学习 机器学习
1
清华大学电机学课程: 直流电动机 单相异步电动机 步进电机
2021-09-13 13:39:04 1.04MB 电机学
1
第 1 章 JSP 简介................................................................................10 1. 1 什么是 JSP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1. 2 JSP 页面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1. 3 JSP 的运行原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1. 4 安装配置 JSP运行环境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1. 5 JSP 页面的测试 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1. 6 JSP 与 Java Servl et 的关系 . . . . . . . . . . . . . . . . . . . . . . . . 23 第 2 章 JSP语法.................................................................................25 2. 1 JSP 页面的基本结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2. 2 变量和方法的声明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2. 2. 1 声明变量 .......................................................................29 2. 2. 2 声明方法 .......................................................................32 2. 2. 3 声明类 ...........................................................................37 2. 3 Java 程序片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2. 4 表达式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2. 5 JSP 中的注释. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2. 6 JSP 指令标签 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2. 6. 1 page 指令......................................................................49 II 2. 6. 2 i ncl ude 指令标签........................................................54 2. 7 JSP 动作标签 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2. 7. 1 i ncl ude 动作标签........................................................59 2. 7. 2 param动作标签.............................................................64 2. 7. 3 f
2021-09-13 10:04:21 1.89MB jsp教程
1
C++语言程序设计(清华大学第四版 郑莉)课后答案
2021-09-12 23:43:41 390KB C++语言 课后答案
1
清华大学 人工智能及其应用课件ppt 第一章 绪论 ,第二章 知识表示法
2021-09-12 13:29:40 756KB 人工智能 清华大学 计算机
1
本课程是对原“电路原理”“模拟电路”“通信电路”和“数字电路”等课程重构形成的新电路原理课程,体系架构为一条主干四个分支。电路抽象为主干,包括端口或支路抽象下的电路基本定律、定理,电路方程列写方法和电路基本分析方法,开关抽象、数字逻辑、CMOS门电路,有源、无源等。四个分支为线性电阻电路,包括电阻分压、电桥、衰减电路,理想变压、回旋、环行器,理想受控源、负阻、负反馈放大器,噪声、阻抗、传输等;非线性电阻电路,包括二极管、晶体管,反相器、电流镜、差分对、乘法器,CE、CB、CC组态和cascode结构,运放电路及其正负反馈应用,ADC、DAC,非线性失真,线性化处理方法等;一阶动态电路,包括一阶RC、RL滤波器时频分析,半波整流器、张弛振荡器,开关电容,延时、带宽等;二阶动态电路,包括二阶RLC滤波器时频分析,阻抗匹配与变换电路,高频放大器,正弦波振荡器,DC-AC,DC-DC,谐振、匹配等。
2021-09-11 19:03:29 173B 电子电路
1
北京市清华大学附属中学朝阳学校2022届高三上学期入学测试物理试题
2021-09-11 14:02:06 1.26MB
1
这是一本非常经常的USB学习书籍,我个人觉得仔细研究完这本书,比花很多时间研究其它书要好多了。
1
研究生学术与职业素养讲座2020——清华大学,雨课堂,答案:14讲后全部答案。研究生学术与职业素养讲座2020——清华大学,雨课堂,答案:14讲后全部答案。研究生学术与职业素养讲座2020——清华大学,雨课堂,答案:14讲后全部答案。
1
语音合成,关于谷哥的作业 有的同学可能想得太难了,也可以很水的过去。。。
2021-09-10 14:54:21 865KB MATLAB 语音合成
1