MATLAB强化学习实战(九) 多智能体的区域探索 源码
2021-05-06 12:09:05 3.53MB 强化学习
1
对知识图谱感兴趣的朋友。内容包括1知识图谱的起源和概念2知识图谱的应用场景3知识图谱的构建方法4知识图谱的技术基础5从知识图谱到认知图谱6在图上轻松学习深度学习:DGL(DEEP GRAPH LIBRARY)中使用TensorFlow的案例
2021-05-04 14:07:26 2.79MB 知识图谱 强化学习
语言是用python,窗体基于tkinter,算法基于强化学习,采用最简单的qLearing 基本思想参考博客https://blog.csdn.net/JerryLife/article/details/81385766 注释编码是gbk,若编码乱码,注意更改编码格式
2021-05-02 19:07:51 9KB 强化学习 井字棋
1
文档是根据David Silver 强化学习课件和视频整理的思维导图,包含了第二到第九讲的内容,不是很全面,请大家见谅。 在整理过程中参考了https://blog.csdn.net/xyk_hust和https://me.csdn.net/dukuku5038的学习心得。 (思维导图软件是用的Xmind试用版)
2021-05-01 22:33:49 2.77MB 强化学习 思维导图
1
强化学习简单实现 开发语言:C++ 运行环境:Ubuntu 16.06
2021-04-30 09:06:36 7KB reinforcemen
1
强化学习sutton第二版习题答案
2021-04-30 09:01:58 1.62MB 强化学习
1
DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55 20.38MB JupyterNotebook
1
MATLAB强化学习代码包,用于解决多步决策模型(网格迷宫问题)的Sarsa-λ算法 "I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?"
1
强化学习最新综述新鲜出炉。在这篇文章中,作者对强化学习进行了全面的研究,包括现有的挑战、不同技术的最新发展以及未来的发展方向。文章致力于提供一个清晰简单的研究框架,能够为新的研究人员或者想全面了解强化学习领域的人提供一个参考。
2021-04-28 09:38:55 437KB RL
1
tensorflow实战练习,包括强化学习、推荐系统、nlp等
2021-04-27 21:15:46 95.11MB Python开发-机器学习
1