搜索【deep-reinforcement-learning】的结果

Continuous Control with Deep Reinforcement Learning持续控制与深度强化学习

我们将深度Q-Learning成功背后的理念与持续的动作域。我们提出了一种基于确定性模型的无模型算法可以在连续动作空间上操作的策略梯度。使用同样的学习算法，网络结构和超参数，我们的算法稳健地解决20多个模拟物理任务，包括经典如手推车摆动、灵巧操作、腿部运动等问题还有开车。我们的算法能够找到性能具有竞争力的策略与那些发现的规划算法完全访问的动态域及其衍生物的。我们进一步证明，对于许多任务算法可以“端到端”学习策略：直接从原始像素输入。

2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制

1

DQLearning-Toolbox:深度强化学习工具箱（QLearning）-源码

强化学习工具箱(DRLToolbox) 概述该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱，提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行？运行run_window.py可启动窗口启动界面主界面设置界面其他功能详见项目大报告什么是强化学习？详见报告最终表现以贪吃蛇为例，经过超过500万次训练（超过48小时），一共完成36171局，每局分数如

2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python

1

一种用于SDN路由优化的深层RL方法：一种用于软件定义的网络路由优化的深度强化学习方法-源码

用于软件定义的网络路由优化的深度强化学习方法：乔治·（Giorgio Stampa），玛塔·阿里亚斯（Marta Arias），大卫·桑切斯·查尔斯（David Sanchez-Charles），维克多·芒特斯·穆勒（Victor Muntes-Mulero），阿尔伯特·卡贝洛斯（Albert Cabellos）在本文中，我们设计和评估了可以优化路由的深度强化学习代理。我们的代理会自动适应当前的流量状况，并提出量身定制的配置，以尽量减少网络延迟。实验显示非常有前途的性能。而且，相对于传统的优化算法，该方法具有重要的操作优势。代码和数据集。 Keras和Deep确定性策略梯度可

2021-12-05 10:41:31 50KB deep-reinforcement-learning sdn routing-optimization traffic-engineering

1

Asynchronous Methods for Deep Reinforcement Learning

增强学习经典算法 A3C 论文摘要： We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural network controllers. The best performing method, an asynchronous variant of actor-critic, surpasses the current state-of-the-art on the Atari domain while training for half the time on a single multi-core CPU instead of a GPU. Furthermore, we show that asynchronous actor-critic succeeds on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.

2021-11-30 16:51:49 2.2MB RL A3C

1

reinforcement_learning_ppo_rnd:在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏进行深度强化学习，并附有一些解释-源码

PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码版本 2 和其他进展版本 2 将带来代码质量和性能的改进。我重构了代码，以便它遵循 OpenAI 基线上 PPO 实现中的算法。我还使用了称为 Truly PPO 的更新版本的 PPO，它比 OpenAI 的 PPO 具有更高的样本效率和性能。目前，我专注于如何在更困难的环境（Atari 游戏、MuJoCo 等）中实施这个项目。使用 Pytorch 和 Tensorflow 2 清理代码使用真正的 PPO 添加更复杂的环境添加更多说明入门该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架，使用 Gym 作为强化学习环境。虽然不是必需的，但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目先决

2021-11-30 12:09:22 3.45MB reinforcement-learning deep-reinforcement-learning pytorch gym

1

Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2-源码

深度SARSA和深度Q学习-LunarLander-v2 环境在这个项目中，我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境，其目的是教导登月舱模块安全地着陆在固定在点（0,0）的着陆垫上。该代理具有3个推进器：一个在模块的底部，另一个在模块的每一侧。因此，代理人在每个时间步长都有4种可能的动作可供选择：发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素：发射底部推进器会产生-0.3的奖励，而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上，将获得+100分的奖励，此外，与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时，已达到终端状态。为了检测终端状态，可以提取一个状态向量，该状态向量指示代理的位置，其当前速度和环境着陆标志，以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后，要解决此问题并确定

2021-11-29 16:39:04 10.34MB machine-learning reinforcement-learning machine-learning-algorithms deep-reinforcement-learning

1

Dota 2 with Large Scale Deep Reinforcement Learning.pdf

2021-11-27 21:10:40 8.4MB 人工智能

1

Deep_Reinforcement_Learning：深度强化学习项目的集合-源码

深度_强化_学习

2021-11-23 20:48:32 16KB reinforcement-learning deep-learning deep-reinforcement-learning reinforcement-learning-algorithms

1

pysc2-examples：《星际争霸II》-pysc2深度强化学习示例-源码

StartCraft II强化学习示例该示例程序建立在 pysc2（Deepmind）[ ] 基线（OpenAI）[ ] s2client-proto（暴雪）[ ] Tensorflow 1.3（谷歌）[ ] 目前的例子小地图使用Deep Q Network收集矿物碎片快速入门指南 1.获取PySC2 聚酰亚胺获取PySC2的最简单方法是使用pip： $ pip install git+https://github.com/deepmind/pysc2 另外，您必须安装baselines库。 $ pip install git+https://github.com

2021-11-22 19:59:04 4.89MB machine-learning reinforcement-learning ai deep-reinforcement-learning

1

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning.pdf

2021-11-12 22:39:22 3.9MB 人工智能

1

个人信息

热门下载

最新下载

其他资源