上传者: 42679995
|
上传时间: 2022-01-19 11:02:59
|
文件大小: 8.81MB
|
文件类型: -
强化学习的算法主要分为两大类: 基于值的算法(Value-Based) 和 基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法,然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法,也包括《RND》这篇论文中使用的PPO算法。