只为小站
首页
域名查询
文件下载
登录
李升波-强化学习与控制-第十一讲
清华大学智能驾驶实验室官网:http://www.idlab-tsinghua.com/thulab/labweb/index.html 本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十一讲,主要介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。
2021-07-09 21:06:30
4.5MB
强化学习
最优控制
POMDP
李升波教授
1
李升波-强化学习与控制-第三讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第三讲,主要介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。
2021-07-09 21:06:26
2.63MB
强化学习
最优控制
蒙特卡洛法
李升波教授
1
李升波-强化学习与控制-第五讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第五讲,主要介绍介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。
2021-07-09 16:08:10
3.42MB
强化学习
最优控制
动态规划
李升波教授
1
李升波-强化学习与控制-第六讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第六讲,主要介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
2021-07-09 16:08:09
2.31MB
强化学习
最优控制
李升波教授
间接型RL
1
李升波-强化学习与控制-第七讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第七讲,主要介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
2021-07-09 16:08:09
2.17MB
强化学习
最优控制
李升波教授
策略梯度法
1
李升波-强化学习与控制-第八讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第八讲,主要介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
2021-07-09 16:08:08
3.87MB
强化学习
最优控制
李升波教授
深度强化学习
1
李升波-强化学习与控制-第九讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第九讲,主要介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
2021-07-09 16:08:08
2.41MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-强化学习与控制-第十讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十讲,主要介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系。
2021-07-09 16:08:07
3.49MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-强化学习与控制-第一讲
本课程为清华大学强化学习与控制,由清华大学长聘教授李升波主讲,共十一讲,本讲为第一讲,主要介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
2021-07-09 16:08:04
3.7MB
强化学习
最优控制
李升波教授
强化学习概况
1
李升波-强化学习与控制-第四讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第四讲,主要介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
2021-07-09 16:08:03
2.4MB
强化学习
最优控制
时序差分法
李升波教授
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
Academic+Phrasebank+2021+Edition+_中英文对照.pdf
基于matlab的车牌识别系统设计
2019年秋招—华为硬件工程师笔试题目.pdf
vivado 破解 lisence(有效期到2037年) 下载
JPEG的Matlab实现
Microsoft Visual C++ 2015-2019 运行库合集,包含32位64位
2019和2021年华为单板通用硬件笔试题及答案
PowerBI视觉对象共计271组,更新日期2021.01.20日.zip
人体姿态检测
Python+OpenCV实现行人检测(含配置说明)
雷达信号处理仿真程序(MTI,MTD等)
MATLAB之LSTM预测
算法设计(中文版)和习题解答 Jon_Kleinberg著,张立昂译
模型预测控制MPC(模型预测电流控制,MPCC)的simulink仿真,2016b版本
CUDA并行程序设计 GPU编程指南-中文扫描539页完整版pdf+高质量英文完整591页原版非扫描pdf
最新下载
ESXi-7.0U1sc-R_niu.iso_ESXi-7.0RTL8111RTL8125 操作系统.OS
SmartKit_V2R7C00RC9_zh.zip
解决win10禁止更新,windows update拒绝访问问题
jdk-17.0.8.zip(windows免安装版本)
LabVIEW-Modbus-API-master
MindMaster Linux 专业版(无水印)
c1700-k9w7-tar.zip
qqfarm资源包+flash插件.zip
ITU音频测试文件
MEMS全向麦克风电路+PCB源文件+源代码等-电路方案
其他资源
c++ builder实现文件粉碎机的源码
SpringBoot WebService cxf接口发布以及logbok日志集成
中英教材——泛函分析(第2版)[美] 鲁丁(Rudin)著,刘培德 译.rar
朴素贝叶斯算法做文本分类-代码
内容查找,根据指定的文件夹查找包含指定内容的文件(C#源码)
小波变换提取基音频率 Matlab
关于蓝桥杯单片机设计与开发项目模拟试题(客观题部分)
通讯录的制作(数据结构c语言 代码+报告)
Python金融分析与风险管理-配套彩图和数据.zip
基于FPGA的音乐播放器设计
哈尔滨工业大学《高级算法设计与分析》2019年期末试卷.pdf
thrift0.12.0 Ubuntu 安装包及安装教程.tar.xz
matlab2007B数模乘公交看奥运_搜索法+dijkstra算法代码
patch.exe下载
一个基于 OpenCV 的人脸识别系统
matlab-m语言-编程实现随机树算法实现(RRT)
apache-ant-compress-1.5-bin.zip
毫秒激光辐照单晶硅的在线应力损伤研究
Qt简单实现的插件系统
steamGameRun.exe
MATLAB实验1信号的时域分析
html5简单迷你音乐播放器代码(迷你版,代码简单清晰)
基于Web的投稿与稿件处理系统——毕业论文
《Visual_C++_实用教程(第3版)》.pdf
物理学课件-真空中的静电场
org.apache.http.legacy的jar包
快速全盘查找文件程序(VB6.0代码编写)