PettingZoo是一个Python库,用于进行多主体强化学习的研究。 它类似于OpenAI的Gym库的多代理版本。 我们的网站(包含全面的文档)是 环境与安装 PettingZoo包括以下环境系列: :多人Atari 2600游戏(合作和竞争) :我们开发的合作图形游戏,需要高度的协调 游戏:经典游戏,包括纸牌游戏,棋盘游戏等。 :具有大量粒子代理的可配置环境,最初来自 :一组简单的非图形通信任务,最初来自 :3种合作环境,最初来自 要安装pettingzoo基本库,请使用pip install pettingzoo 。 这不包括对所有环境系列的依赖关系(数量众多,有些在某些系统上安装可能会出现问题)。 您可以为一个家庭安装这些依赖项,例如pip install pettingzoo[atari]或使用pip install pettingzoo[all]安装所
2021-12-08 16:47:01 38.77MB Python
1
此书作者周克敏。本书阐述了当代鲁棒与最优控制的主要和基本的内容,其中包含了作者对该理论作出的重要贡献。
2021-12-07 18:01:24 3.01MB 鲁棒 最优 控制 周克敏
1
强化学习对话生成 应用深度强化学习进行对话生成。 又名聊天机器人
2021-12-07 15:04:42 105.86MB 系统开源
1
强化学习matlab源代码很少见的源代码,详细介绍Q学习的编程过程。
2021-12-06 19:47:50 2KB 强化学习 matlab 源代码
1
Ada-IRL Adaboost逆向强化学习 一种使用类似于Adaboost的I-Rl算法的方法。 RL 开始进行强化学习的测试演示。 python rl_test.py 内部收益率 开始进行逆向强化学习的测试演示。 python irl_test.py
1
黎卡提方程的解 随终点时间变化的黎卡提方程的解 线性二次型性能指标的最优控制
2021-12-06 14:52:11 1.79MB 课件
1
2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1
近年来,随着机器学习 (ML) 使用的大量增加,作为 ML 的一个分支的强化学习 (RL) 方法获得了巨大的吸引力,因为它解决了决策的学习自动化问题。时间。 在金融交易的情况下,许多方法如描述性、基本面和技术分析被用于做出股票投资决策。 本文旨在探索的另一种方法是深度 Q 学习,它也是处理金融交易中更实际问题的合适方法。 本文将列出的分析方法(描述性、技术性和深度 Q 学习)应用于苹果股票指数 (AAPL)。 该论文发现,这些技术对交易者有益,也有助于进行长期和短期交易投资。
2021-12-05 19:35:30 554KB Machine Learning Relative
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1