#4.4_OpenAI_Gym_using_Tensorflow_(强化学习_Reinforcement_Learning_教学
2021-09-01 21:00:20 29.84MB 学习资源
#4.4_OpenAI_ES_大规模强化学习_Reinforcement_learning_(机器学习_进化算法_Evoluti
2021-09-01 21:00:20 37.88MB 学习资源
相扑 SUMO-RL通过用于交通信号控制的提供了一个简单的界面来实例化强化学习环境。 主类继承了的 。 如果使用参数'single-agent = True'实例化,则其行为类似于来自的常规 。 负责使用 API检索信息并在交通信号灯上。 该存储库的目标: 提供一个简单的界面,以与使用SUMO的交通信号控制强化学习一起使用 支持Multiagent RL 与gym.Env和流行的RL库(例如和 易于定制:状态和奖励定义易于修改 安装 安装最新版本的SUMO: sudo add-apt-repository ppa:sumo/stable sudo apt-get update sudo apt-get install sumo sumo-tools sumo-doc 不要忘记设置SUMO_HOME变量(默认的sumo安装路径为/ usr / share / sumo) ec
2021-08-26 13:54:45 583KB reinforcement-learning gym sumo rl-algorithms
1
OpenWebText 该项目是概述的GPT-2 WebText数据集的克隆。 该项目仍然是在制品。 非常感谢让我使用他的下载代码。 他的OpenWebText版本写得很好,所以请查看! 依存关系 Pipenv,Python 3, 要安装python依赖项,请执行以下操作: pipenv install 依赖关系: 在Ubuntu上: sudo apt-get install libxml2-dev libxslt-dev 在OS X上: brew install libxml2 libxslt 用法 从reddit获取URL列表: pipenv run python get_urls.py 从网址下载数据: pipenv run python download.py 结果文件将以data/格式{domain}-{sha256 hash of url}.txt存放。 享
2021-08-24 10:43:18 14KB Python
1
静脉-健身房 Veins-Gym将Veins模拟导出为Open AI Gyms。 这使得强化学习算法的应用能够解决VANET域中的问题,特别是诸如Tensorflow或PyTorch之类的流行框架。 执照 该项目根据GNU通用公共许可证2.0的条款获得许可。
2021-08-18 12:29:36 16KB simulator reinforcement-learning openai-gym sumo
1
焦炉火中的DALL-E 在实现/复制 (OpenAI的文本到图像转换器)。 它还将包含用于对世代进行排名。 , 和正在开发 ! 如果您想了解DALL-E在TPU上的培训,请帮助他们。 在复制此内容之前,我们可以适应“或“ 状态 设法在仅2000张风景图像的数据集上训练了一个小的6层DALL-E! (2048个视觉标记) 安装 $ pip install dalle-pytorch 用法 火车VAE import torch from dalle_pytorch import DiscreteVAE vae = DiscreteVAE ( image_size = 256 ,
1
OpenAI的Spinning UP(https://spinningup.openai.com/en/latest/spinningup/keypapers.html)对于入门深度强化学习是很好的资料,其中推荐了105篇非常经典的论文,这对于想要从事深度强化学习研究的初学者来说极具参考意义。 本人花了一点时间把所有论文下载并按照网页上的分类整理了下来。
2021-08-10 09:11:10 285.08MB 深度学习 强化学习 spinninup openai
1
自动股票交易的深度强化学习:整体策略 该存储库提供了代码 的Jupiter Notebook重新实现了这种整体策略。 抽象的 股票交易策略在投资中起着至关重要的作用。 但是,在复杂而动态的股票市场中设计一种有利可图的战略是具有挑战性的。 在本文中,我们提出了一种深度集成强化学习方案,该方案可以通过最大化投资回报来自动学习股票交易策略。 我们训练一种深度强化学习代理,并使用三种基于行为者批评的算法来获得整体交易策略:近距离策略优化(PPO),优势参与者批评者(A2C)和深度确定性策略梯度(DDPG)。 集成策略继承并集成了三种算法的最佳功能,从而可以稳健地适应不同的市场条件。 为了避免在具有连续动作空间的训练网络中消耗大量内存,我们采用按需加载方法来处理非常大的数据。 我们在30支具有足够流动性的道琼斯股票上测试了我们的算法。 评估了具有不同强化学习算法的交易代理商的表现,并与道琼斯工业平均
1
RL-MPE 用DDPG/MADDPG/DQN/MADDPG+advantage实验 OpenAI开源的MPE环境 OpenAI MPE: OpenAI MADDPG: 自己加入了DQN,与Maddpg+advantage算法。但效果不如Maddpg。另,在游戏中设置了“吃掉消失”的现象。但训练策略与游戏得分有较大的关系,增加“吃掉消失”与“输赢”评判之后,训练效果不佳。
2021-06-17 18:12:37 52KB Python
1
文件中包含EMERGENT-TOOL-USE-FROM-MULTI-AGENT论文,以及论文的译文,附赠论文代码,可自行配置环境进行学习
2021-06-15 10:16:43 84.9MB openAI RL 人工智能 捉迷藏
1