1. 这是作者花费一周的时间,使用python写出的策略迭代和值迭代强化学习算法,以一个完整的项目发布,为解决“已知马尔科夫决策过程五元组,求最优策略”这类问题提供了算法与通用框架 2. 项目采用面向对象架构和面向抽象编程,用户可以在抽象类基础上,利用继承机制,定义新的具体环境类,测试该算法的有效性。项目还给出了unittest.Testcase的测试代码。 3. 在该项目中算法名称分别对应类:ValueIterationAgent和PolicyIterationAgent(都继承自MdpAgent),马尔科夫决策模型已知的环境抽象类MdpEnv 4. 为展示该算法的有效性,定义了一个GridWorldEnv的具体类,实现了作者博文中“在格子世界中寻宝”的最优策略的学习,并定义了一个GridWorldUI类可视化最优策略及基于最优策略的,用户可以运行住文件main.py 5. 该项目源码的最大特点是:架构合理,可维护性好,可读性强。你不断能学到这两个强化学习算法的精髓,也能够学到什么是好的python程序架构。 6.注意先阅读里面的readme.txt文件。
2024-05-08 21:56:25 329KB 强化学习 策略迭代 面向对象 python
1
强化学习算法合集(DQN、DDPG、SAC、TD3、MADDPG、QMIX等等)内涵20+强化学习经典算法代码。对应使用教程什么的参考博客: 多智能体(前沿算法+原理) https://blog.csdn.net/sinat_39620217/article/details/115299073?spm=1001.2014.3001.5502 强化学习基础篇(单智能体算法) https://blog.csdn.net/sinat_39620217/category_10940146.html
2023-05-15 19:40:13 17.37MB 强化学习 人工智能 MADDPG TD3
1
“# 寻找路径” 在运行simple_RL_run.py之前: 运行_Astar.py:使用AStar算法找到到达目标并避免障碍的最佳方法 运行_Testing.py:模拟Jetbot根据AStar解决方案的React。 Simple_RL 运行simple_RL_run.py:构建一个简单的RL培训环境 改进 States:将3扩展为5->考虑目标的相对位置 reward function:越接近目标,每个步骤可获得的奖励就越大。 Astar solution:使用A *解决Astar solution: “教” Agent,以便它可以进行一些有用的初始设置。 RL_Weibo文件夹 运行run_RL.py 使用Polytope进行RL强化训练 黄微博供稿
2023-04-09 01:11:46 16KB Python
1
实现pysc2环境的强化学习算法
2023-03-13 16:04:28 20KB Python开发-机器学习
1
Cart Pole 在 OpenAI 的 gym 模拟器里面是相对比较简单的一个游戏。游戏里面有一个小车,上有 一根杆子。小车需要左右移动来保持杆子竖直。如果杆子倾斜的角度大于 15°,那么游戏结束。小车也不 能移动出一个范围(中间到两边各 4.8 个单位长度)。详细设计见md文件。
2023-03-09 18:07:26 3MB 强化学习 CartPole
1
TensorFlow2中的分布式RL 是一个使用实现各种流行的分布增强学习算法的存储库。 分布式RL是适用于随机环境的算法。 如果您想研究Distribution RL,则此存储库将是最佳选择。 dist-rl-tf2包含由领先的AI研究机构发布的三种Distribution RL算法。 演算法 C51 论文作者Marc G.Bellemare,Will Dabney,RémiMunos 方法OFF政策/时间差异/无模型仅限离散操作 观念的核心 # idea01. The output of the Q Network is a Distribution Vector, not a Scalar Value. def create_model ( self ): input_state = Input (( self . state_dim ,)) h1 = Dens
2023-02-19 23:32:48 458KB machine-learning deep-learning tensorflow dqn
1
深度强化学习DDPG算法训练小车运动找球的代码
这里是 ShowMeAI 持续分享的【开源eBook】系列!内容覆盖机器学习、深度学习、数据科学、数据分析、大数据、Keras、TensorFlow、PyTorch、强化学习、数学基础等各个方向。整理自各平台的原作者公开分享(审核大大请放手) ◉ 简介:这是本书的第二版,旨在为所有相关学科的读者提供一个清晰的、简单的强化学习关键思想&算法的说明。书籍在第一版的基础上,增加了近些年新的研究主题,内容重点放在核心的算法上。 ◉ 目录: 介绍 多臂老虎机 有限马尔可夫决策过程 动态规划 蒙特卡罗方法 时差学习 n-step Bootstrapping 使用表格方法进行规划和学习 带近似的策略预测 带近似的策略控制 带近似的离策略方法 资格痕迹 策略梯度方法 心理学 神经科学 应用与案例研究 前沿
2022-12-29 20:28:28 8.21MB 人工智能 强化学习 算法 动态规划
1
基于生物启发式算法的多智能体强化学习算法,强化学习,生物启发算法
2022-12-12 11:28:44 6.22MB 强化学习 多智能体
基于生物启发式算法的多智能体强化学习算法matlab和python实现
2022-12-12 11:28:43 121.21MB matlab 强化学习 自学习 python