基于生物启发式算法的多智能体强化学习算法matlab和python实现
2022-12-12 11:28:43 121.21MB matlab 强化学习 自学习 python
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
两段强化学习算法,提供给研究算法的同学。不知道有没有用
1
本文以深度强化学习为基础,设计出一种适用于求解大规模车辆路径问题的模型架 构。采用了预训练模型+基于相对位置的 Transformer网络+A2C强化学习训练框架,为 后续研究大规模车辆路径问题的扩展问题和大规模组合优化问题提供了新的深度强化 学习算法框架。本文中的深度强化学习算法解决了以下问题: (1) 不同规模算例可以共享并继承其他规模训练完的模型,在这种共享模型的机制下, 避免了算例规模相近的模型的重复训练。 (2) 预训练模型能够继承其他规模训练出的模型经验,相对位置节点提高了在大规模 车辆路径问题中特征抓取的精确性,A2C强化学习训练框架环节采用无监督学习, 在无标签训练集中训练中规避经验回溯问题,这三方面针对大规模车辆路径问题 做出的调整,提高了训练效率和收敛效果。 (3) 通过预训练机制解决了大规模车辆路径问题内存溢出的情况,解决了目前已有算 法在大规模算例训练时,内存溢出训练中断等问题。 (4) 与经典的启发式算法和元启发式算法进行比较,在同等求解速度的算法中,本文 算法的求解质量方面全面超越这些算法。并且在当前已有的深度强化学习解决方 案中,本文设计的算法和效
2022-09-02 19:07:15 4.58MB 深度强化学习 VRP
1
DRL用于微电网能源管理 我们针对微电网的能源管理系统问题研究了各种深度强化学习算法的性能。 我们提出了一种新颖的微电网模型,该模型由风力涡轮发电机,储能系统,恒温控制负载,价格响应负载以及与主电网的连接组成。 拟议的能源管理系统旨在通过定义优先级资源,直接需求控制信号和电价来在不同的灵活性来源之间进行协调。 本文实现了七种深度强化学习算法,并进行了实证比较。 数值结果表明,不同的深度强化学习算法在收敛到最优策略的能力上存在显着差异。 通过将经验重播和第二个半确定性训练阶段添加到众所周知的“异步优势演员评论家”算法中,我们获得了更好的性能,并且在能效和经济价值方面收敛于高级策略。 有关此项目的更多信息,访问: :
2022-08-25 22:54:53 22.94MB HTML
1
【翻译原创】对on-policy deep actor-critic算法有影响的参数
2022-07-16 09:07:06 1.57MB 强化学习 算法 python 经验分享
1
强化学习算法在供应链环境下的库存控制中的应用.pdf
2022-07-11 19:13:36 143KB 文档资料
各种强化学习算法
2022-06-19 21:55:35 109KB 各种强化学习算法
1
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(Genetics-Based Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
2022-05-22 10:50:16 644KB 论文研究
1
安装 首先在requirements.txt安装需求,然后运行pip install -e .
2022-05-20 11:20:21 932KB JupyterNotebook
1