上传者: 42109125
|
上传时间: 2021-10-04 12:17:47
|
文件大小: 148KB
|
文件类型: -
MDP-DP-RL
该项目的目标是从头开始开发所有动态编程和强化学习算法(即,除了基本的numpy和scipy工具之外,不使用标准库)。 “从头开始开发”目标是出于教育目的-学习此主题的学生只有在他们开发和使用从头开始开发的代码时才能彻底理解这些概念。 我针对不同的学生背景讲授了该主题的课程,每门此类课程都以技巧/算法的精确编程实现为基础。 特别是,当我教Stanford CME 241:金融中的随机控制问题的强化学习( )时,会使用此代码库。
关于代码可读性,性能和错误的任何反馈将不胜感激,因为代码仍相当原始且未经各个部分的测试(2018年8月开始使用此代码,到目前为止主要处于代码增长模式)。
该项目开始于为有限的马尔可夫过程(又名马尔可夫链),马尔可夫奖励过程(MRP)和马尔可夫决策过程(MDP)实现基础数据结构。 其次是动态编程(DP)算法,其重点是在代码内以清晰的数学术语表