中国象棋Zero(CCZero) 关于 通过方法进行中国象棋强化学习。 该项目基于以下主要资源: DeepMind于10月19日发布的文章: 。 @ mokemokechicken / @ Akababa / @ TDteach在其回购中所做的DeepMind创意的伟大的黑白棋/象棋/中国象棋开发: : : , 带GUI的中国象棋引擎: : 帮助训练 为了使用与AlphaZero相同的技术类型来构建强大的中国象棋AI,我们需要使用分布式项目来完成此任务,因为它需要大量的计算。 如果您想加入我们,打造世界上最好的中国象棋AI: 有关说明,请参见 有关实时状态,请参见 环境
1
Dota 2 with Large Scale Deep Reinforcement Learning.pdf
2021-11-27 21:10:40 8.4MB 人工智能
1
解决VRPTW的强化学习
2021-11-26 16:31:43 29.99MB JupyterNotebook
1
[PYTORCH]玩Flappy Bird的深度Q学习 介绍 这是我的python源代码,用于训练代理玩飞扬的小鸟。 可以将其视为强化学习应用程序的一个非常基本的示例。 结果 如何使用我的代码 使用我的代码,您可以: 通过运行python train.py从头开始训练模型 通过运行python test.py测试您训练有素的模型 训练有素的模特 您可以在trained_models / flappy_bird中找到我训练有素的模型 要求 python 3.6 pygame cv2 火炬 麻木
2021-11-25 22:31:34 26.18MB reinforcement-learning pygame pytorch deep-q-network
1
Reinforcement-learning-in-GTA V 在 GTAV 环境 中使用强化学习算法(Actor-Critic-LSTM) 配置 Grand Theft Auto V(侠盗猎车手 5) steam 或者原装均可 numpy Pytorch(gp 版本) 推荐最新版本(0.40) torchvision GPU(推荐 GTX 960 及以上),我使用的 GTX 960 同时运行 GTA V 和 Actor-Critic 算法有点吃力 系统 Windows,因为MAC 以及 linux 上没有 GTA V ,我的另一个项目。 文件结构 constant 用于算法的一些常数,包括按键,日志,网络常量,游戏画面截取位置 model 网络,使用预训练的 ResNet 得到卷积特征的序列,然后进入 LSTM 得到策略函数和值函数。 train 训练过程 util 工具函数,包
2021-11-25 22:29:04 27KB Python
1
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
StartCraft II强化学习示例 该示例程序建立在 pysc2(Deepmind)[ ] 基线(OpenAI)[ ] s2client-proto(暴雪)[ ] Tensorflow 1.3(谷歌)[ ] 目前的例子 小地图 使用Deep Q Network收集矿物碎片 快速入门指南 1.获取PySC2 聚酰亚胺 获取PySC2的最简单方法是使用pip: $ pip install git+https://github.com/deepmind/pysc2 另外,您必须安装baselines库。 $ pip install git+https://github.com
1
Bayesian methods for machine learning have been widely investigated, yielding principled methods for incorporating prior information into inference algorithms. In this survey, we provide an in-depth review of the role of Bayesian methods for the reinforcement learning (RL) paradigm. The major incentives for incorporating Bayesian reasoning in RL are: 1) it provides an elegant approach to action-selection (exploration/ exploitation) as a function of the uncertainty in learning; and 2) it provides a machinery to incorporate prior knowledge into the algorithms. We first discuss models and methods for Bayesian inference in the simple single-step Bandit model. We then review the extensive recent literature on Bayesian methods for model-based RL, where prior information can be expressed on the parameters of the Markov model. We also present Bayesian methods for model-free RL, where priors are expressed over the value function or policy class. The objective of the paper is to provide a comprehensive survey on Bayesian RL algorithms and their theoretical and empirical properties.
2021-11-21 19:28:33 1.81MB 贝叶斯 增强学习 机器学习 深度学习
1
结合网上信息和莫烦视频做的一个分享,本想转化成博客但是一些动画我觉得还是必要的,有兴趣的可以一起交流
2021-11-18 09:31:22 29.43MB reinforcement learning Q-learning SARSA
1