司机批评家 OpenAI Gym的CarRacing-v0环境解决方案。它使用DDPG算法(深度确定性策略梯度)。 快速开始 依存关系: 健身房0.18.0 Tensorflow 2.4.0 Matplotlib 3.3.4 当前版本的CarRacing-v0存在内存错误。为了解决这个问题,我们需要从Gym GitHub手动下载最新的“ car_racing.py”脚本。 正在运行的应用程序: 执行“ main_loop.py”以训练新模型。按空格键观看进度 可以通过运行“ evaluate_loop.py”来检查最佳解决方案。 解决方案 DDPG由4个网络组成: 演员-玩游戏 评论家-评估演员 目标演员和目标评论家-产生学习目标值 参考: : 它旨在创建一个基类,它将成为每个连续动作任务的基础。通过继承基类,可以轻松实现更复杂的解决方案。 CarRacing-v0是一种计算机视
2021-06-07 16:17:47 377KB Python
1
OpenAIGym练习可以提高我的RL技能。 这是我与TAMU CESG一起进行的本科研究工作的一部分。 除了解决诸如CartPole和Breakout之类的具体练习之外,我还将实施Deep Q Networks,以更好地了解它们的工作方式。
2021-04-25 16:37:55 8KB Python
1
Atari Pong中的深度强化学习算法 概括 此应用程序的目标是找出深度Q学习(DQN)在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。 在DQN之上,测试了对相同算法的其他改进,包括多步DQN,Double DQN和Dueling DQN。 从下图可以看出,基本DQN仅需玩约110场游戏即可达到类似于人的准确性,而经过300场游戏即可达到极高的准确性。 此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。 基本DQN:第1集与第216集 环保环境 Atari 1600仿真器由OpenAI制作,您可以在59种不同的游戏上测试您的强化算法。 使用深度强化学习,因为输入是当前帧(210x160x3)的RGB图片。 由于RGB图片的计算量太大,因此变成了灰度。 接下来是将图像缩减采样并将其剪切到可播放区域,该区域的大小为84x84x1。 灰度,下采样和裁剪
2021-03-27 20:32:26 1.3MB Python
1
提示 这是OpenAI GPT-3提示的免费开放源代码(FOSS)策划。 执照 GPL-3 .prompt文件格式 这是我用来组织这些提示的格式。 它是具有模式的yaml ,尚未定义。 该文件与该模式的示例一样好。 title : " meeting bullet points to summary " prompt : |+ Convert my short hand into a first-hand account of the meeting: Summary: engine : " davinci-instruct-beta " temperature : 0.7 max-tokens : 60 top-p : 1 frequency-penalty : 0.0 presence-penalty : 0.0 best-of : 1 stop-
2021-03-08 11:06:59 45KB openai gpt-3 YASnippet
1
很珍贵的资料,看大牛怎么学习,研究的是什么最新科技。
2020-01-03 11:34:35 4.45MB OPENAI
1
强化学习的新书。基于Openai gym,Openai gym是一个用于开发和比较RL算法的工具包。
2020-01-03 11:18:40 12.92MB 强化学习
1
Hands-On Intelligent Agents with OpenAI Gym_ Your guide to developing AI agents using deep reinforcement learning
2019-12-21 21:19:52 12.88MB OpenAI
1