MATLAB的MDP工具箱(马尔可夫决策过程工具箱),内含MATLAB代码以及代码说明。(注:本资源是截止至2021年2月的最新工具箱)。其中代码说明在documentation文件夹下,文件夹内为网页链接,双击打开网页链接后即为代码说明,代码说明中包括example。
2021-02-03 12:11:51 393KB matlab 强化学习
1
模仿学习 此仓库包含一些强化学习算法的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。 但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。 结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴趣,并打算添加一些相关算法。 当前功能 目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。 每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。 Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
1
总共13个章节,2021最新课件!!该书的名字叫《强化学习与最优控制》,作者是美国工程院院士、麻省理工大学的Dimitri P. Bertsekas教授。本书预计将于2019年由Athena Scientific(http://www.athenasc.com/)出版社出版问世,
2021-02-02 00:04:36 19.68MB 人工智能
1
awesome-game-ai:多智能体强化学习的Awesome Game AI资料
2021-02-01 14:37:52 6KB awesome reinforcement-learning ai multi-agent
1
PAL是一种灵活高效的强化学习框架.具有可重复性的特点。我们给出的算法能够稳定地再现许多有影响的强化学习算法的结果。大规模的。支持数千CPU和多GPU的高性能并行训练的能力.可重复使用。存储库中提供的算法可以通过定义前向网络直接适应新任务,并自动建立训练机制。可扩展的。通过继承框架中的抽象类,快速构建新的算法。PARL is a flexible and high-efficient reinforcement learning framework.
2021-01-30 23:03:16 26.48MB PaddlePaddle 强化学习框架
1
APS1080 入门级强化学习学习笔记
2021-01-29 20:17:08 3.04MB 强化学习 机器学习 人工智能
1
grasshopper资料
2021-01-29 14:07:56 58MB 强化学习
1
解决网格迷宫问题的MATLAB强化学习程序合集:包括使用Q_learing算法、Sarsa算法以及Sarsa-Lambda算法解决网格迷宫问题。 “I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?”
摇臂硬币机-强化学习(greed贪心算法,softmax更新算法)
2021-01-28 22:23:28 14KB 强化学习
1
基于王子寻找公主的案例详细解释Q-Learning算法的每一条代码
2021-01-28 16:14:56 33KB 强化学习
1