Richard S.Sutton和Andrew G.Barto所著。学习强化学习的人都应该知道这两个人。本资料为旁听Rich Sutton课时老师推荐的阅读材料之一,本资料仅限个人使用,分三个压缩包上传。
2022-03-17 10:09:40 14.31MB 强化学习 reinforcement learning
1
在机床运动控制过程中,除了需对转速进行精确控制,对运动位置的控制同样重要,此时线位移或者角位移被作为控制的对象,控制系统采用位置随动系统。位置随动系统作为一种广泛应用在机床加工、导弹制导和雷达控制等领域的一类系统,具有在输入信号发生未知规律变化时,能够用控制量实现对给定量的跟踪并进行反馈,主要指标包括对输入信号的跟随精度、跟踪速度和加速度。它作为一种典型的自动控制系统,在机床位置角度控制中起到重要的作用,是其他调节控制系统的重要部分。 位置随动系统作为一种能够对未知输入变量进行精确控制的典型闭环控制系统,其根本任务就是实现执行机构对位置指令的准确跟踪,在机床运动位置和角度控制中起到重要作用。针对一个小功率直流电机型随动系统,进行数学建模研究,并用状态空间形式予以描述。基于该数学模型,设计出一个 LQR最优控制器。仿真结果表明: 所提出的控制方法具有超调量小、调节时间短、稳态精度高的性能优势。此外,该方法较为简单,易于工程实现。
2022-03-16 20:41:13 422KB 最优控制
1
提出了一种基于RBF网络和启发式Q学习的改进,更强大的RNH-QL方法,用于在较大状态空间中进行路径搜索。 首先,如果增加了给定问题的状态空间并且缺少关于环境的先验信息,则解决了强化学习效率低下的问题。 其次,作为权重更新规则的RBF网络,奖励整形可以在某些中间状态下向代理提供额外的反馈,这将有助于以更可控的方式将代理引导至目标状态。 同时,通过Q学习的过程,底层动态知识可以访问它,而不需要上层RBF网络的背景知识。 第三,结合贪婪开发策略训练神经网络,提高了学习效率,实验结果证明了这一点。
1
基于强化学习的云工作流调度算法
2022-03-15 22:29:46 79KB 研究论文
1
通过对高寒草地植物多样性与生产力对不同放牧强度响应机制的研究表明:多样性与生产力随放牧强度的增加均呈现显著性下降趋势,其中不放牧、轻牧、中牧和重牧下的Shannon指数的平均值分别为4.35,3.89,3.65,3.01,生产力指标(地上生物量均值)分别为987.6,826.8,660.7,535.8 g/m2(鲜重1.这表明多样性与生产力对放牧的响应呈现同步性,中牧和重牧是导致二者大幅度下降的主要动因.应用生物控制论方法,组建了草地放牧管理的最大持续产量模型和最优控制模型.实例计算结果表明:样区滩地、阳
2022-03-15 17:30:50 432KB 自然科学 论文
1
PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
1
本次实战代码仍是在之前基础上进行了一些修改。之前只在一支股票上进行训练,这次我将模型放在多支股票上训练,并在多支股票上进行了测试。对于多支股票的训练策略,没有参考过别人的训练方案(做这个的比较少)。我按自己的理解去训练,每一轮训练,都将每支股票从头到尾走一次。核心代码如下: 结果: 股票1: 不加均线的回测结果: 加均线的回测结果: 股票2: 不加均线的回测结果: 加均线的回测结果: 股票3: 不加均线的回测结果: 加均线的回测结果: 从上图可以发现,加了均线系统限制股票买卖效果不一定好,但是可以从一定程度上规避风险。在下跌趋势比较明显的股票中,均线系统能够很好的保护账户,减少损
2022-03-15 13:11:29 325KB 减仓 化学 均线指标
1
对于DQN的理论知识,这里不再赘述,不懂的同学可以看之前的强化学习理论篇或自行上网搜索相关资料。 废话不多说直接上代码。 DQN类 首先定义了一个DQN类(这个定义参考了莫烦的代码 [1],几乎与其一致,做了简单修改)。下面简单的说明一下,代码中的核心部分。详细介绍可以看莫烦教学视频或者结合代码自己理解。 class 中包含了5个主要模块,分别是__init__ (初始化),_build_net(网络构建),store_transition(储存过去操作),choose_action(根据状态选择动作),learn(网络学习)。 _build_net:构建了两个结构相同网络eval_net和
2022-03-15 13:10:50 1.01MB 化学 学习 实战
1
与上一篇文章相同之处 对于交易策略,与上一篇文章相同,当发出买入指令时,一次性全部买入;当发出卖出指令时,一次性全部卖出。还没有添加加减仓操作。 模型仍然用的是DQN模型。 新增内容 在之前的基础上加入了交易手续费、印花税等。 在强化学习这个领域中,reward函数是一个需要精心设计的函数。目前暂时没有好的reward设计思路,但还是修改了之前的reward函数。(其实之前的reward的设计也是错的) 首先将第二天的股票价格的涨跌幅当做reward。 reward =(self.trend[self.t + 1] - self.trend[self.t]) / self.trend[self
2022-03-15 13:07:50 279KB 化学 学习 实战
1
布鲁克林Bang Bang 在学生中进行项目/竞赛的设置,以训练经典游戏Bomberman的获奖强化学习代理。 方法 简单神经网络方法 ( 是基于的代理 罗莎·迪亚兹(Rosa Diaz) 杰克·佩拉尔塔(Jake Peralta) Github动作 培训代理商可能会令人讨厌。为了简化我们的工作,我们集成了一个Github Action来自动培训我们的代理商。可悲的是,我的服务器没有图形卡,因此我们仍然使用CPU进行训练。好吧,我并不富有:D 使用映像运行 : docker run -it --name github-runner \ -e RUNNER_NAME=private \ -e GITHUB_ACCESS_TOKEN=... \ -e RUNNER_TOKEN=... \ -e RUNNER_REPOSITORY_URL=https://gi
1