深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
针对蜂窝网资源分配多目标优化问题,提出了一种基于深度强化学习的蜂窝网资源分配算法。首先构建深度神经网络(DNN),优化蜂窝系统的传输速率,完成算法的前向传输过程;然后将能量效率作为奖惩值,采用Q-learning机制来构建误差函数,利用梯度下降法来训练DNN的权值,完成算法的反向训练过程。仿真结果表明,所提出的算法可以自主设置资源分配方案的偏重程度,收敛速度快,在传输速率和系统能耗的优化方面明显优于其他算法。
1
强化学习的泛化性一直是个被人诟病的问题。最近来自UCL& UC Berkeley的研究人员对《深度强化学习》做综述,阐述了当前深度学习强化学习的泛化性工作,进行了分类和讨论。
2021-11-24 13:07:07 6.08MB 深度强化学习 泛化性
1
StartCraft II强化学习示例 该示例程序建立在 pysc2(Deepmind)[ ] 基线(OpenAI)[ ] s2client-proto(暴雪)[ ] Tensorflow 1.3(谷歌)[ ] 目前的例子 小地图 使用Deep Q Network收集矿物碎片 快速入门指南 1.获取PySC2 聚酰亚胺 获取PySC2的最简单方法是使用pip: $ pip install git+https://github.com/deepmind/pysc2 另外,您必须安装baselines库。 $ pip install git+https://github.com
1
重新整理文章:如何用深度强化学习.: 基于win10 ,VS2019 快速实现 用python 下载baostock中的数据,之后进行计算600036模拟。
2021-11-10 22:16:44 4.34MB 深度学习 python 大数据
1
路由matlab仿真代码 人工智能 研究领域包括计算机视觉、生物视觉、自动驾驶的工具。 入门 深度学习、深度强化学习,具体子问题包括视觉目标跟踪和平稳跟踪的相关性、多目标跟踪等。 环境 开发测试平台Ubuntu 18.04、Windows 10。 Matlab 2018a Python 3.6 安装 所有安装包 Matlab 2018a Matlab 2018a(包括Windows、Linux、Mac平台的安装包及安装步骤) Python Python 3.6.5(Anaconda3-5.2.0) 添加环境变量:C:\Users\dong\Anaconda3 C:\Users\dong\Anaconda3\Scripts pip install opencv_python-3.4.2-cp36-cp36m-win_amd64.whl pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tqdm pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gym==0.
2021-11-10 19:16:08 3.24MB 系统开源
1
深度强化学习(Deep Reinforcement Learning )是研究的热点之一,在2019年DeepMind OpenAI等发表多篇热门论文。来自SprekelerLab的博士生 Robert Tjarko Lange总结了2019年十大深度强化学习论文,涉及到大型项目、模型RL、多代理RL、学习动力学、组合先验等,值得一看。
2021-11-08 20:15:32 40.84MB DRL
1
tsp matlab代码使用深度强化学习方法和注意力模型来解决多目标TSP。 该代码是具有四维输入(欧几里得类型)的模型。 具有三维输入的模型(混合类型)在RL_3static_MOTSP.zip中。 本文中用于可视化和比较的Matlab代码位于MOTSP_compare_EMO.zip中。 在tsp_transfer _... dirs中可以找到经过训练的模型。 要测试模型,请使用Post_process目录中的load_all_rewards。 要训​​练模型,请运行train_motsp_transfer.py 为了可视化获得的帕累托阵线,应使用Matlab对结果进行可视化。 Matlab代码位于.zip文件中。 它位于“ MOTSP_compare_EMO / Problems / Combinatorial MOPs / compare.m”中。 用于批量生成数字。 首先,您需要运行train_motsp_transfer.py来训练模型。 运行load_all_rewards.py以加载和测试模型。 还将获得的Pareto Front转换为.mat文件 运行Matlab代码
2021-11-08 15:58:24 158.13MB 系统开源
1
深度强化学习以实现动态组合管理 STAT 461课程项目 张克南 该存储库是提出的用于动态投资组合管理的强化学习模型的实现 。 动机 动态投资组合管理描述了根据股票价格顺序分配资产集合以最大化长期收益的过程。 从本质上讲,它属于强化学习的名声,代理商通过与环境互动来学习最佳策略。 因此,我们可以将投资组合的重新分配视为“行动”,将股票市场视为“环境”,将立即的投资回报视为“回报”。 问题陈述 考虑一个由m个资产和现金组成的投资组合。 我们使用向量w表示每项资产的权重,因此权重之和等于1。假设最后一次重新分配后的权重为w t-1 ,则在当前时间步结束时,权重转移到w ' t由于股票价格变动。 然后,我们需要重新分配投资组合,以使权重等于w t 。 MDP框架 与其他强化学习模型相同,我们需要首先将动态投资组合优化问题表述为马尔可夫决策过程(MDP)。 状态S T:标准化价格的历史很短。 考
2021-11-06 16:36:30 6.09MB JupyterNotebook
1