只为小站
首页
域名查询
文件下载
登录
李升波-
强化学习
与控制-第六讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第六讲,主要介绍间接型RL的函数近似方法,包括常用近似函数,
值函数
近似,
策略函数
近似以及所衍生的Actor-critic架构等。
2021-07-09 16:08:09
2.31MB
强化学习
最优控制
李升波教授
间接型RL
1
李升波-
强化学习
与控制-第七讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第七讲,主要介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
2021-07-09 16:08:09
2.17MB
强化学习
最优控制
李升波教授
策略梯度法
1
李升波-
强化学习
与控制-第八讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第八讲,主要介绍深度
强化学习
,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
2021-07-09 16:08:08
3.87MB
强化学习
最优控制
李升波教授
深度强化学习
1
李升波-
强化学习
与控制-第九讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第九讲,主要介绍带模型的
强化学习
,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
2021-07-09 16:08:08
2.41MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-
强化学习
与控制-第十讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第十讲,主要介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系。
2021-07-09 16:08:07
3.49MB
强化学习
最优控制
近似动态规划
李升波教授
1
李升波-
强化学习
与控制-第一讲
本课程为清华大学
强化学习
与控制,由清华大学长聘教授李升波主讲,共十一讲,本讲为第一讲,主要介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
2021-07-09 16:08:04
3.7MB
强化学习
最优控制
李升波教授
强化学习概况
1
李升波-
强化学习
与控制-第二讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第二讲,主要介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。
2021-07-09 16:08:04
1.99MB
强化学习
最优控制
清华大学
最优性原理
1
李升波-
强化学习
与控制-第四讲
本课程为
强化学习
与控制,由清华大学开设,长聘教授李升波主讲,共十一讲,本讲为第四讲,主要介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
2021-07-09 16:08:03
2.4MB
强化学习
最优控制
时序差分法
李升波教授
1
量化算法交易中的深度
强化学习
:综述论文
算法股票交易已经成为当今金融市场的一种主要交易方式,大多数交易现在已经完全自动化。深度
强化学习
(DRL)代理被证明是一种力量,在许多复杂的游戏,如国际象棋和围棋不可忽视。本文将股票市场的历史价格序列和走势看作是一个复杂的、不完全的信息环境,在这个信息环境中,本文试图实现收益最大化和风险最小化。
2021-07-09 12:06:59
1.5MB
强化学习
1
最优化方法与
最优控制
最优化方法与
最优控制
(研究生用)第一章最优化方法的一般概念第二章非线性规划第三章线性规划第四章
最优控制
与变分法第五章最小值定理第六章线性二次型
最优控制
系统第七章动态规划
2021-07-08 15:53:54
3.75MB
习题
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
elsevier 爱思唯尔 系列期刊的word模板,template,单栏,双栏
DS证据理论的MATLAB案例程序源代码
2020年数学建模国赛C题论文
凯斯西储大学(CWRU)轴承数据集(含数据包+整理Python程序+使用说明)
基于Matlab的PI/4 DQPSK的调制解调源代吗
VideoDownloadHelper去除120分钟时间限制-高级版.zip
多智能体的编队控制程序的补充(之前上传少了一个文件)
芯片验证漫游指南以及源代码.zip
Matpower中文使用手册(原名《MATPOWER手册(中文版)》).rar
新型冠状病毒疫情_2020年东三省数学建模A题_论文展示
opcua服务器模拟器+opcua客户端工具.rar
基于FPGA的DDS信号发生器设计(频率、幅度、波形可调)
刚萨雷斯《数字图像处理》第四版答案.pdf
《应用非线性控制》(美)斯洛坦著;程代展译(清晰)
Android大作业——网上购物APP(一定是你想要的)
最新下载
海康摄像机视频存储服务器
MITE DEV端.zip
管家婆分销ERP V1 V3 A8II TOP V10.0.2最新全版本通用
双线性插值FPGA代码Verilog
逻辑分析仪刷固件及Saleae驱动程序
新西兰地震数据集 新西兰地震列表
rk3588音视频硬件编解码技术资料
mathematica 简易教程
谷歌卫星地图 破解版
mamba-ssm-1.1.3-cp310-cp310-win-amd64.whl
其他资源
Discrete-Time Signal Processing, 3rd--【Oppenheim】--[1137].pdf
AndroidUsb摄像头Demo
LDPC编译码MATLAB程序,可以直接运行程序,校验矩阵按照基础的G提出的原理生成的,用了高斯变换的到[I P]矩阵,译码是置信译码算法
STM32F103 DHT22 程序 完美实现
xshell5安装包
C语言数据结构用栈实现表达式求值
杨叔子时间序列分析的工程应用(最新版)
MLX90615中文手册
基于selenium模拟天眼查登录并爬取企业注册等信息的爬虫
vb 中文分词试验
四旋翼飞控程序
网上人才招聘系统 源代码
安全阀计算软件
难以量化的需求开发与管理
大数据平台测试数据生产-使用TPC-H生成测试数据
premiere入门篇1-1.avi
ops_channel:运维通道是联接运维人员与机器的一座桥。它跟常用的开源运维工具(`ansible`,`saltstack`,`puppet`)没有本质区别,那为什么还要重复造轮子呢?-源码
自动贩卖机 (完全体).rar
红帽认证系统管理员
中国国界九段线topojson格式数据.zip
OCX控件及测试页面
JDAdverNotice.rar
kafka_2.11-0.8.2.1.jar
基于人工势场的岔路口分析
Ultra Fractal分形软件
游戏设计的236个技巧 游戏机制、关卡设计和镜头窍门高清版
windows程序设计(第五版).pdf