扑克RL 扑克游戏中的多智能体深度强化学习框架。 背景 解决不完善的信息游戏的研究主要围绕直到最近才遍历整个游戏树的方法(例如,请参见 , , )。 神经虚拟自我播放(NFSP) ,后悔策略梯度(RPG) ,深反事实后悔最小化(Deep CFR) 和单深CFR 等新算法最近将深(强化)使用常规方法(例如CFR和虚拟游戏)进行学习,以仅在访问游戏状态的一小部分时即可了解近似的纳什均衡。 PokerRL框架 PokerRL算法的组成部分 您的算法由相互交互的工作人员(绿色)组成。 训练运行的参数通过TrainingProfile的实例( .../rl/base_cls/Training
2021-05-12 11:04:25 325KB framework research reinforcement-learning poker
1
COMP9417项目-交通灯控制器 为了使用该程序,第462行的compressions_style可以是“ default”,“ greedy”或“ average”,以生成不同的状态表示形式以进行Q学习。 线路463上的“方案”可以是“默认”或“ max_stopped”,以更改奖励状态的方式。 在线464上的学习可以是“默认”或“固定”的,以在允许程序决定何时切换灯与以每10个时间步长一次的固定速率切换灯之间进行切换。 可以在第21-23行中更改Q学习参数gamma,alpha和epsilon,并且可以通过第26行上的强度和第27行上的generation_function更改生成函数,这些函数可以是“ default”,“ exponential”或“ constant” 。 为了能够查看程序的图形版本,需要在第42行将verbose设置为True。
2021-05-12 08:52:28 5.61MB
1
本程序基于MFC写的,测试了基于模型下的值迭代和策略迭代。分享给大家了
2021-05-11 17:27:10 14.51MB 清洁机器人
1
本资源包含基于Matlab强化学习路径寻优机器人建模与仿真课设报告、配套完整源码和PPT、演示视频等资料。 其它关于基于Matlab机器人建模与仿真资料合集请往CSDN博客 “基于Matlab的机器人学建模学习资料大整理”查看与获取!
2021-05-11 16:49:45 333B Matlab建模 机器人学 六轴机器人
1
sumo_reinforcement_learning:与斯坦福大学机器学习课程(CS 229)的最终项目相关的源代码; 在SUMO交通模拟环境中使用强化学习方法
2021-05-11 09:58:14 2.37MB 系统开源
1
为促进居民用户柔性负荷高效参与需求响应,帮助 用户从被动角色转变为主动角色,实现需求侧最大效益。本文在智能电网环境下,根据用电设备的特性,以概率论 的角度对家电设备状态进行描述定义,基于异步深度强化 学习(asynchronous deep reinforcement learning,ADRL)进 行家庭能源管理系统调度的在线优化。学习过程采用异步 优势演员-评判家(asynchronous advantage actor-critic, A3C)方法,联合用户历史用电设备运行状态的概率分布, 通过多智能体利用CPU 多线程功能同时执行多个动作的 决策。该方法在包括光伏发电、电动汽车和居民住宅电器 设备信息的某高维数据库上进行仿真验证。最后通过不同 住宅情境下的优化决策效果对比分析可知,所提在线能耗 调度策略可用于向电力用户提供实时反馈,以实现用户用 电经济性目标。
1
Reinforcement Learning - An Introduction,Richard S. Sutton著作,第二版,2018年3月25日版本,是目前最新的版本,548页
2021-05-10 17:22:40 16.15MB 强化学习
1
压缩文件中有两个.py文件,分别为深度强化学习的交叉熵优化方法和策略优化方法的完整代码,readme文件中提供的资料中有具体的操作细节以及算法解释
2021-05-08 17:04:12 8KB 深度强化学习
1
UR5eRobot:关于使用UR5e机器人进行强化学习的项目
2021-05-07 19:08:52 423KB Python
1
用强化学习进行路径规划,各种强化学习的算法,适合从一开始进行学习,加实践代码哦
2021-05-07 11:48:22 11.6MB 强化学习 python 路径规划
1