只为小站
首页
域名查询
文件下载
登录
李升波-强化学习与控制-第十一讲
清华大学智能驾驶实验室官网:http://www.idlab-tsinghua.com/thulab/labweb/index.html 本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十一讲,主要介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。
2021-07-09 21:06:30
4.5MB
强化学习
最优控制
POMDP
李升波教授
1
李升波-强化学习与控制-第三讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第三讲,主要介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。
2021-07-09 21:06:26
2.63MB
强化学习
最优控制
蒙特卡洛法
李升波教授
1
李升波-强化学习与控制-第五讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第五讲,主要介绍介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。
2021-07-09 16:08:10
3.42MB
强化学习
最优控制
动态规划
李升波教授
1
李升波-强化学习与控制-第六讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第六讲,主要介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
2021-07-09 16:08:09
2.31MB
强化学习
最优控制
李升波教授
间接型RL
1
李升波-强化学习与控制-第七讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第七讲,主要介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
2021-07-09 16:08:09
2.17MB
强化学习
最优控制
李升波教授
策略梯度法
1
李升波-强化学习与控制-第八讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第八讲,主要介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
2021-07-09 16:08:08
3.87MB
强化学习
最优控制
李升波教授
深度强化学习
1
李升波-强化学习与控制-第九讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第九讲,主要介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
2021-07-09 16:08:08
2.41MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-强化学习与控制-第十讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十讲,主要介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系。
2021-07-09 16:08:07
3.49MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-强化学习与控制-第一讲
本课程为清华大学强化学习与控制,由清华大学长聘教授李升波主讲,共十一讲,本讲为第一讲,主要介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
2021-07-09 16:08:04
3.7MB
强化学习
最优控制
李升波教授
强化学习概况
1
李升波-强化学习与控制-第四讲
本课程为强化学习与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第四讲,主要介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
2021-07-09 16:08:03
2.4MB
强化学习
最优控制
时序差分法
李升波教授
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
java-spring-web-外文文献翻译40篇.zip
Autojs 例子 源码 1600多个教程源码
Steam离线安装版
PLECS中文手册.pdf
商用密码应用与安全性评估——霍炜.pdf
simulink仿真实现光伏发电MPPT+能量管理
2010年-2020中国地面气候资料数据集(V3.0)
鲸鱼优化算法 WOA matlab源代码(详细注释)
中小型企业网络建设.pkt
MAC OS.X.10.8.iso 镜像文件
风电场风速及功率数据.zip
全国道路网SHP数据.zip
倒立摆的模糊控制(基于simulink仿真,适合初学者).rar
Matpower中文使用手册(原名《MATPOWER手册(中文版)》).rar
多目标优化算法(四)NSGA3的代码(python3.6)
最新下载
基于STM32F4x9的LCD显示
易语言Excel多表对应处理
系统架构:复杂系统的产品设计与开发PPT.zip
Multisim仿真8路抢答器设计资料,带完整ms文件与设计论文
HYPACK2018说明书翻译,大约13万字
TPS-SLG-GAME:Unity制作的多人在线的第三人称策略类射击游戏,服务端实现怪物寻路,服务端由python实现。(服务端没有用任何python第三方库)-源码
user-agent
信息几何教材(Information Geometry)
material studio交联脚本
Entity-Relation-Extraction(Medical).zip
其他资源
c#驱动级模拟按键
Huawei Style Guide (Chinese).pdf
AD7193手册和例程
prti1516 V3.2.2完全破解版(请勿用于商业用途 LB)
费诺编码(fano)matlab程序
java项目经验包装简历指南
Ansoft 工程电磁场有限元分析
基于物品的协同过滤推荐系统实现
klayout-0.26.9-win64-install.exe.zip
matlab图像预处理的所有代码
很好的数据结构课件 西北大学
STM32F407ZET6核心板 ALTIUM AD设计原理图+PCB+封装库文件.zip
VESA Signal 1600 x 1200 @ 60 Hz timing.pdf
智能车 CCD完整源程序
pybind11.zip
STM32单片机SHT3X.zip
unity 5.x 3D游戏开发案例
modbus通讯协议进行温湿度数据的采集
水果选择菜单的实现——类似淘宝购物车
LCD12864 驱动程序1
gtk的输入框添加图标的例子
单点登录经典案例
2018-2019java面试宝典最新版(内附赠旧版)