机器学习算法文献
2021-04-29 01:47:11 1.16MB 人工智能
1
机器学习外文文献
2021-04-29 01:47:10 1.18MB 人工智能
1
[PYTORCH]玩超级马里奥兄弟的近战策略优化(PPO) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。 说到性能,我经过PPO培训的代理可以完成29/32个级别,这比我一开始的预期要好得多。 供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体而言,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队,在Dota 2玩家的99.95%中排名。 样品结果 动机 自从我发布我的A3C实现( )
2021-04-28 15:38:52 172.1MB python mario reinforcement-learning ai
1
视觉推送和抓取工具箱 视觉推送和抓取(VPG)是一种训练机器人代理以学习如何计划互补的推送和抓取操作以进行操纵(例如,用于非结构化的放置和放置应用程序)的方法。 VPG直接在视觉观察(RGB-D图像)上运行,从试错中学习,快速训练,并推广到新的对象和场景。 该存储库提供PyTorch代码,用于在UR5机械臂的模拟和实际设置中通过深度强化学习来训练和测试VPG策略。 这是本文的参考实现: 通过自我监督的深度强化学习来学习推动和抓握之间的协同作用 , ,( ,( ,( ,( 2018年IEEE / RSJ国际智能机器人和系统国际会议(IROS) 熟练的机械手操作得益于非灵活(例如推
1
《强化学习(第2版)》英文版,作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
2021-04-22 20:44:20 10.34MB 强化学习 英文版 Richard S.
1
Keras的深度强化学习 它是什么? keras-rl在Python中实现了一些最先进的深度强化学习算法,并与深度学习库无缝集成。 此外, keras-rl可与一起使用。 这意味着评估和使用不同算法很容易。 当然,您可以根据自己的需要扩展keras-rl 。 您可以使用内置的Keras回调和指标,也可以定义自己的回调和指标。 更重要的是,只需扩展一些简单的抽象类,即可轻松实现自己的环境甚至算法。 文档可。 包含什么? 到目前为止,已实现以下算法: 深度Q学习(DQN) , Double DQN 深度确定性策略梯度(DDPG) 连续DQN(CDQN或NAF) 交叉熵方
1
使用PyTorch和Unity ML-Agent进行深度Q网络(DQN)强化学习 一个简单的示例,说明如何使用PyTorch和ML-Agents环境实现基于矢量的DQN。 深度强化学习(DRL)中的Udacity Danaodgree项目 该存储库包含以下与DQN相关的文件: dqn_agent.py-> dqn-agent实现 replay_memory.py-> dqn-agent的重播缓冲区实现 model.py->用于基于向量的DQN学习的示例PyTorch神经网络 train.py->初始化并实施DQN代理的训练过程。 test.py->测试受过训练的DQN代理 根据Udacit
1
强化学习-调查
2021-04-02 14:13:00 511KB 强化学习-调查
Atari Pong中的深度强化学习算法 概括 此应用程序的目标是找出深度Q学习(DQN)在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。 在DQN之上,测试了对相同算法的其他改进,包括多步DQN,Double DQN和Dueling DQN。 从下图可以看出,基本DQN仅需玩约110场游戏即可达到类似于人的准确性,而经过300场游戏即可达到极高的准确性。 此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。 基本DQN:第1集与第216集 环保环境 Atari 1600仿真器由OpenAI制作,您可以在59种不同的游戏上测试您的强化算法。 使用深度强化学习,因为输入是当前帧(210x160x3)的RGB图片。 由于RGB图片的计算量太大,因此变成了灰度。 接下来是将图像缩减采样并将其剪切到可播放区域,该区域的大小为84x84x1。 灰度,下采样和裁剪
2021-03-27 20:32:26 1.3MB Python
1