Ada-IRL Adaboost逆向强化学习 一种使用类似于Adaboost的I-Rl算法的方法。 RL 开始进行强化学习的测试演示。 python rl_test.py 内部收益率 开始进行逆向强化学习的测试演示。 python irl_test.py
1
黎卡提方程的解 随终点时间变化的黎卡提方程的解 线性二次型性能指标的最优控制
2021-12-06 14:52:11 1.79MB 课件
1
2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1
近年来,随着机器学习 (ML) 使用的大量增加,作为 ML 的一个分支的强化学习 (RL) 方法获得了巨大的吸引力,因为它解决了决策的学习自动化问题。时间。 在金融交易的情况下,许多方法如描述性、基本面和技术分析被用于做出股票投资决策。 本文旨在探索的另一种方法是深度 Q 学习,它也是处理金融交易中更实际问题的合适方法。 本文将列出的分析方法(描述性、技术性和深度 Q 学习)应用于苹果股票指数 (AAPL)。 该论文发现,这些技术对交易者有益,也有助于进行长期和短期交易投资。
2021-12-05 19:35:30 554KB Machine Learning Relative
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
强化学习在二十一点 用于玩二十一点变体的几种强化学习算法的实现 为了运行所有算法,只需运行 main.py。 这将执行 test_all_algorithms() 函数,该函数运行 MC、SARSA 和线性函数近似与 SARSA,并带有显示结果的图。 其他模块的详细信息: environment.py - 包含 step() 函数和环境的实现 rl_algorithms - 包含 MC、SARSA 和线性函数逼近 plotting.py - 包含绘制值函数、SARSA 和 LFA 结果的函数 policy.py - 放置策略的地方,目前只包含 epsilon 贪婪策略 Utility.py - 计算均方误差并将状态转换为 LFA 的特征向量
2021-12-05 10:16:46 14KB Python
1
基于自适应动态规划的不确定性目标拦截微分博弈制导律设计
2021-12-04 22:30:06 1.5MB ADP 强化学习 拦截导弹
1
基于深度强化学习卡尔曼滤波锂离子电池 SOC 估计.pdf
2021-12-04 11:01:36 739KB 算法 互联网 资源
强化学习资料(强化学习原理及其应用)
2021-12-02 10:36:23 56.23MB 强化学习
1