Pairstrade-Fyp-2019 科大的最后一年项目。 我们测试了3种进行配对交易的主要方法: 距离法 协整方法(滚动OLS,卡尔曼滤波器) 强化学习代理(拟议) 。 “五年计划”成员:,, 如何开始? 运行./setup.sh以安装所有依赖项 笔记 在我们的实验中,我们使用了来自盈透证券平台的财务数据,该平台不是免费的。 根据他们的规定,我们无法向公众发布实验中使用的财务数据。 随时使用您自己的价格数据进行实验。 免责声明 我们执行的策略尚未被证明在真实交易账户中有利可图 报告的回报完全来自回测程序,它们可能会受到我们不知道的前瞻性偏见的影响。 更新 我们不再对此进行开发,请查看关于RL代理的发现
1
NFV深 服务功能链在线编排的深度强化学习 免责声明:这是一个非官方的实现,试图重现在描述的深度强化学习方法 作为研究生项目的一部分。 尽管执行的代理确实会随着时间的推移而学习,但我们无法重现本文中所述的相同结果。 顾问: 开发人员: , 设置 假设已经在Ubuntu 18.04机器上安装了Anaconda(版本4.8.4)发行版,则可以简单地通过conda env create -f environment.yml克隆conda env create -f environment.yml 。 根据您系统的设置,可能需要安装RayTune的其他软件包以及所应用的Tensorflow版本。 实验 script.py文件可作为使用默认参数化在NFVdeep环境上运行基准或DRL代理的接口,即不采用超参数优化。 在这里,您可以指定覆盖拓扑,网络资源以及到达过程的属性。 例如,我们可以执行以
1
Ada-IRL Adaboost逆向强化学习 一种使用类似于Adaboost的I-Rl算法的方法。 RL 开始进行强化学习的测试演示。 python rl_test.py 内部收益率 开始进行逆向强化学习的测试演示。 python irl_test.py
1
要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1:车杆 介绍 在此任务中,我们必须在购物车顶部平衡一根杆。 动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车 我在大约60集中使用DQN解决了这个问题。 以下是得分与情节的关系图。 项目2:山地车 介绍 在此任务中,我们必须教车达到山顶处的目标位置。 操作空间的数量为3。在这种环境下,操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车 我在大约15集中使用DQN解决了此问题。 以下是得分与情节的关系图。 项目3:Pendulam 介绍 在此任务中,我们必须平衡摆锤的颠倒状态。 作用空间的数量为1,这是施加在关节上的扭矩。 动作空间在这里是连续的。 0扭矩[-2,2] 我在大约100集中使用DDPG解决了这个问题。 以下是得分与情节的
1
this file contains:Advanced Deep Learning with Keras_ Apply deep learning techniques, autoencoders, GANs, variational autoencoders, deep reinforcement learning, policy gradients, and more (2018, Packt Publishing.pdf Deep Reinforcement Learning for Wireless Networks (2019, Springer International Publishing).pdf Deep Reinforcement Learning Hands-On_ Apply modern RL methods, with deep Q-networks, value iteration, policy gradients, TRPO, AlphaGo Zero and more.pdf Hands-On Reinforcement Learning with Python_ Master reinforcement and deep reinforcement learning using OpenAI Gym and TensorFlow (2018, Packt Publishing).epub Hands-On Reinforcement Learning with Python_ Master reinforcement and deep reinforcement learning using OpenAI Gym and TensorFlow (2018, Packt Publishing).pdf Keras Reinforcement Learning Projects (2018, Packt Publishing).epub Keras Reinforcement Learning Projects (2018, Packt Publishing).pdf Practical Reinforcement Learning Develop self-evolving, intelligent agents with OpenAI Gym, Python and Java.pdf Python Reinforcement Learning Projects - 2018.pdf Reinforcement Learning for Optimal Feedback Control (2018, Springer International Publishing).pdf Reinforcement Learning with TensorFlow_ A beginner’s guide to designing self-learning systems with TensorFlow and OpenAI Gym (2018, Packt Publishing).pdf Reinforcement Learning _ With Open AI, TensorFlow and Keras Using Python-Apress (2018).pdf Reinforcement Learning_ An Introduction (2018, The MIT Press).pdf Simulation-Based Optimization_ Parametric Optimization Techniques and Reinforcement Learning (2015, Springer US).pdf Statistics for Machine Learning_ Techniques for exploring supervised, unsupervised, and reinforcement learning models with Python and R-Packt Publishing (2017).pdf Tensorflow for Deep Learning_ From Linear Regression to Reinforcement Learning (2018, O'Reilly Media).pdf
2021-12-05 11:20:04 176.68MB ML DL
1
用于软件定义的网络路由优化的深度强化学习方法 :乔治·(Giorgio Stampa),玛塔·阿里亚斯(Marta Arias),大卫·桑切斯·查尔斯(David Sanchez-Charles),维克多·芒特斯·穆勒(Victor Muntes-Mulero),阿尔伯特·卡贝洛斯(Albert Cabellos) 在本文中,我们设计和评估了可以优化路由的深度强化学习代理。 我们的代理会自动适应当前的流量状况,并提出量身定制的配置,以尽量减少网络延迟。 实验显示非常有前途的性能。 而且,相对于传统的优化算法,该方法具有重要的操作优势。 代码和数据集。 Keras和Deep确定性策略梯度可
1
强化学习在二十一点 用于玩二十一点变体的几种强化学习算法的实现 为了运行所有算法,只需运行 main.py。 这将执行 test_all_algorithms() 函数,该函数运行 MC、SARSA 和线性函数近似与 SARSA,并带有显示结果的图。 其他模块的详细信息: environment.py - 包含 step() 函数和环境的实现 rl_algorithms - 包含 MC、SARSA 和线性函数逼近 plotting.py - 包含绘制值函数、SARSA 和 LFA 结果的函数 policy.py - 放置策略的地方,目前只包含 epsilon 贪婪策略 Utility.py - 计算均方误差并将状态转换为 LFA 的特征向量
2021-12-05 10:16:46 14KB Python
1
增强学习 经典算法 A3C 论文摘要: We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural network controllers. The best performing method, an asynchronous variant of actor-critic, surpasses the current state-of-the-art on the Atari domain while training for half the time on a single multi-core CPU instead of a GPU. Furthermore, we show that asynchronous actor-critic succeeds on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.
2021-11-30 16:51:49 2.2MB RL A3C
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1