概述 这是关于强化学习的注释和示例的集合。 这些内容基于Richard S. Sutton和Andrew G. Bartow撰写的《》第二版。 内容 该存储库中包含以下注释和示例: 第2章-多臂强盗 第三章-有限马尔可夫决策过程 第4章-动态编程 第5章-蒙特卡洛方法 笔记 二十一点 解决二十一点 二十一点状态值的非政策估计 无限方差 赛马场 第六章-时差学习 笔记 随机游走 批量更新下的随机游走 风之网格世界 悬崖漫步
2021-10-25 19:20:27 5.48MB F#
1
用Java进行动手强化学习[视频] 这是出版的的代码库。 它包含从头到尾完成视频课程所需的所有支持项目文件。 关于视频课程 数据科学和机器学习世界中存在无法通过监督学习或无监督学习解决的问题。 如果标准ML工程师的工具包不够用,您可以学习和使用一种新方法:强化学习。 本课程重点介绍Java生态系统中的关键强化学习技术和算法。 每个部分都涵盖了RL概念并解决了实际问题。 您将学习解决具有挑战性的问题,例如创建机器人,决策,随机悬崖行走等等。 然后,您还将涵盖深度强化学习,并学习如何在RL算法中使用DeepLearning4J添加深度神经网络。 在本课程结束时,您将准备解决强化学习问题,并利用最强大的Java DL库创建强化学习算法。 您将学到什么 利用ND4J和RL4J进行强化学习 使用马尔可夫决策过程解决购物车极点问题 使用QLConfiguration来配置您的强化学习算法 利用动
2021-10-25 19:14:42 21.71MB Java
1
设计了一种基于马尔可夫决策过程 (MDP) 的智能派单方法,通过将派单建模成为一个序列决策 (Sequential Decision Making) 问题,结合了强化学习和组合优化,能在即时完成派单决策的条件下,基于对全天供需、出行行为的预测和归纳,达到优化一天之内司机整体效率的效果,能在确保乘客出行体验的同时明显提升司机的收入
2021-10-25 19:10:14 7.66MB 强化学习 深度学习
1
红绿灯交通学习 需要做的事情: 安装FLOW框架-https: 安装SUMO- //sumo.dlr.de/docs/Downloads.php或遵循FLOW安装 然后,将custom_traffic_light_env.py放入envs文件夹(/ flow / flow / envs)下的FLOW文件夹中。 通过添加以下内容来修改envs文件夹的init.py: 从flow.envs.custom_traffic_light_env导入CustomTrafficLightEnv, CustomTrafficLightPOEnv,CustomTrafficLightTestEnv,CustomTrafficLightBenchmarkEnv 全\u90e8='CustomTrafficLightEnv','CustomTrafficLightPOEnv','CustomTrafficLig
2021-10-25 17:23:36 436KB Python
1
简单的强化学习的C++模拟。 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题, 即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。 简单来说,在结点0下有结点1和结点2两个分支,以此类推,在结点1,2和下依旧有两个结点3,4和5,6;总共有4层结点, 总共15个结点,而我们的目标是最后一个结点,也就是对走到最会一个结点的运行状态进行奖励。
2021-10-25 16:29:28 2KB 强化学习 C++ 机器学习
1
MAgent是一个多Agent强化学习的研究平台。 与之前的研究平台不同,这些平台专注于使用单个代理或少数代理进行强化学习研究,而MAgent旨在支持从数百到数百万代理扩展的强化学习研究。
2021-10-24 23:36:02 9.55MB Python开发-机器学习
1
深度强化学习代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度强化学习(DQN)进行人为控制[] [] 强化学习的分布式视角(C51)[] []
1
强化学习(RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
2021-10-24 15:54:59 3.66MB 强化学习
1
强化学习必读论文
2021-10-23 22:42:26 13.6MB DQN
1
温暖 强化学习的猎物模型 使用TensorFlow的捕食者-被捕食者系统的简单Q学习演示
2021-10-22 18:45:55 26KB python machine-learning tensorflow python3
1