求解两点边界值问题步骤 由控制方程(1.6.11)求得 U=U[X(t),(t),t] (1.6.14) 将式(1.6.14)代入规范方程(1.6.9)和(1.6.10)消去其中的U(t),得到 (1.6.15) (1.6.16) 利用边界条件(1.6.12)和(1.6.13)联立求解方程(1.6.15)和(1.6.16),可得唯一确定的解X(t)和(t)。 将所求得的X(t)和(t)代入式(1.6.14)中,可求得相应的U(t)。
2021-10-04 15:49:32 1015KB 变分法 最优控制
1
MDP-DP-RL 该项目的目标是从头开始开发所有动态编程和强化学习算法(即,除了基本的numpy和scipy工具之外,不使用标准库)。 “从头开始开发”目标是出于教育目的-学习此主题的学生只有在他们开发和使用从头开始开发的代码时才能彻底理解这些概念。 我针对不同的学生背景讲授了该主题的课程,每门此类课程都以技巧/算法的精确编程实现为基础。 特别是,当我教Stanford CME 241:金融中的随机控制问题的强化学习( )时,会使用此代码库。 关于代码可读性,性能和错误的任何反馈将不胜感激,因为代码仍相当原始且未经各个部分的测试(2018年8月开始使用此代码,到目前为止主要处于代码增长模式)。 该项目开始于为有限的马尔可夫过程(又名马尔可夫链),马尔可夫奖励过程(MRP)和马尔可夫决策过程(MDP)实现基础数据结构。 其次是动态编程(DP)算法,其重点是在代码内以清晰的数学术语表
2021-10-04 12:17:47 148KB Python
1
广告优化:使用强化学习算法(如汤普森采样和上限可信度)来优化最佳广告
1
---黎卡提(Riccati)矩阵方程 是一个一阶非线性矩阵微分方程。 2)最优控制规律为: 由黎卡提方程解出 后,可得: 1)最优反馈增益矩阵:
2021-10-02 21:18:12 3.41MB 最优控制
1
 为去除脑电信号采集过程中存在的噪声信号,提出了基于小波阈值去噪的脑电信号去噪。以小波阈值降噪为基础,首先利用db4小波对脑电信号进行5尺度分解,然后采用软、硬阈值与小波重构的算法进行去噪。通过对MIT脑电数据库中的脑电信号进行仿真,结果表明,采用软阈值方法有效去除了噪声,提高了脑电信号的信噪比。
1
基于神经网络和强化学习的西洋跳棋评估算法.pdf
2021-10-01 18:06:28 1.22MB 神经网络 深度学习 机器学习 数据建模
周克敏著 《鲁棒与最优控制》 毛建琴 钟宜生 国防工业出版社
2021-09-30 15:27:25 9.99MB 鲁棒与最优控制 周克敏
1
最优控制理论与系统(第2版)胡寿松 这里面不包括答案,答案在我主页可以找到!!
2021-09-30 08:47:25 12.67MB 胡寿松
1
强化学习经典 深度强化学习的圣经 有代码 有实现 最好的手工实现代码的书 没有之一 手把手用深度强化学习教你敲代码
2021-09-29 16:58:29 12.61MB 强化学习
1
公用池资源系统中的深度多主体强化学习 中的论文中的实验源代码。 该论文已被接受并发表在IEEE CEC 2019上。 介绍 在复杂的社会生态系统中,具有不同目标的多个代理机构采取的行动会影响系统的长期动态。 共同资产池是此类系统的子集,在这些系统中,财产权通常定义不清,先验性未知,因此造成了社会困境,这是众所周知的公地悲剧反映出来的。 在本文中,我们研究了在公共资源池系统的多主体设置中进行深度强化学习的功效。 我们使用了系统的抽象数学模型,表示为部分可观察到的一般和马尔可夫博弈。 在第一组实验中,独立主体使用具有离散动作空间的深度Q网络来指导决策。 但是,明显的缺点是显而易见的。 因此,在第二组实验中,具有连续状态和动作空间的深度确定性策略梯度学习模型指导了主体学习。 仿真结果表明,使用第二种深度学习模型时,代理商在可持续性和经济目标方面的表现均明显更好。 尽管代理商没有完全的预见力或对他
1