2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关.注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于.人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和.强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha-.Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络.算法、A3C算法, 策略梯度算法及其它算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智.能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进.展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.
2021-12-06 10:38:35 1.62MB 研究论文
1
近年来,随着机器学习 (ML) 使用的大量增加,作为 ML 的一个分支的强化学习 (RL) 方法获得了巨大的吸引力,因为它解决了决策的学习自动化问题。时间。 在金融交易的情况下,许多方法如描述性、基本面和技术分析被用于做出股票投资决策。 本文旨在探索的另一种方法是深度 Q 学习,它也是处理金融交易中更实际问题的合适方法。 本文将列出的分析方法(描述性、技术性和深度 Q 学习)应用于苹果股票指数 (AAPL)。 该论文发现,这些技术对交易者有益,也有助于进行长期和短期交易投资。
2021-12-05 19:35:30 554KB Machine Learning Relative
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
强化学习在二十一点 用于玩二十一点变体的几种强化学习算法的实现 为了运行所有算法,只需运行 main.py。 这将执行 test_all_algorithms() 函数,该函数运行 MC、SARSA 和线性函数近似与 SARSA,并带有显示结果的图。 其他模块的详细信息: environment.py - 包含 step() 函数和环境的实现 rl_algorithms - 包含 MC、SARSA 和线性函数逼近 plotting.py - 包含绘制值函数、SARSA 和 LFA 结果的函数 policy.py - 放置策略的地方,目前只包含 epsilon 贪婪策略 Utility.py - 计算均方误差并将状态转换为 LFA 的特征向量
2021-12-05 10:16:46 14KB Python
1
基于自适应动态规划的不确定性目标拦截微分博弈制导律设计
2021-12-04 22:30:06 1.5MB ADP 强化学习 拦截导弹
1
基于深度强化学习卡尔曼滤波锂离子电池 SOC 估计.pdf
2021-12-04 11:01:36 739KB 算法 互联网 资源
强化学习资料(强化学习原理及其应用)
2021-12-02 10:36:23 56.23MB 强化学习
1
Carla目前的稳定版为即可下载,linux解压后命令行执行这将启动一个全屏的仿真窗口,你能使用WASD驾驶车辆实验中往往增加各种参数进行配置carla-server参数表示以服务端模式运行,等待客户端连接benchmarkfps=10表示仿真中每一个step的时间间隔相同windowedResX=300ResY=300表示窗口化以及大小配置环境变量:SDL_VIDEODRIVER=offscreen和SDL_HINT_CUDA_DEVICE=0程序中可以这么写这个目前的缺点是默认第0块GPU,选择其他的会失效,在https://github.com/carla-simulator/carla
1
离散控制Matlab代码 一阶倒立摆最优控制 Invert pendulum Optimal Control 考虑一阶倒立摆简化模型如下图,如图所示为非线性不稳定的倒立摆,目标是通过传感器测量
2021-11-30 21:14:33 1.46MB 系统开源
1