强化学习 强化学习的学习代码,算法包括Q-Learning、DQN、DDQN、PolicyGradient、ActorCritic、DDPG、PPO、TD3、SAC。 使用说明 python版本: 3.10.13 依赖库:requirements.txt 安装依赖库:pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/
2024-03-12 21:16:32 53.97MB
1
强化学习的算法主要分为两大类: 基于值的算法(Value-Based) 和 基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法,然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法,也包括《RND》这篇论文中使用的PPO算法。
2022-01-19 11:02:59 8.81MB 强化学习 ppo 强化学习算法 ActorCritic
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
附件为policy gradient,actor critic相关的基础代码,可以跑的通,有助于对policy gradient,actor critic, advantage actor critic三种算法的认识和了解
2021-08-22 21:11:26 3KB policygradient actorcritic
1