司机批评家 OpenAI Gym的CarRacing-v0环境解决方案。它使用DDPG算法(深度确定性策略梯度)。 快速开始 依存关系: 健身房0.18.0 Tensorflow 2.4.0 Matplotlib 3.3.4 当前版本的CarRacing-v0存在内存错误。为了解决这个问题,我们需要从Gym GitHub手动下载最新的“ car_racing.py”脚本。 正在运行的应用程序: 执行“ main_loop.py”以训练新模型。按空格键观看进度 可以通过运行“ evaluate_loop.py”来检查最佳解决方案。 解决方案 DDPG由4个网络组成: 演员-玩游戏 评论家-评估演员 目标演员和目标评论家-产生学习目标值 参考: : 它旨在创建一个基类,它将成为每个连续动作任务的基础。通过继承基类,可以轻松实现更复杂的解决方案。 CarRacing-v0是一种计算机视
2021-06-07 16:17:47 377KB Python
1
本算法是基于遗传算法实现分子团簇的最优结构,对每代染色体用共轭梯度算法优化,通过选择、杂交、变异,有限次迭代后找到一个分子团簇的最优结构。本算法使用水分子作为例子的。
1
该文件内容为共轭梯度算法的并行实现方式,主要包括在mpi下的实现,openmp下的实现以及基于cuda的gpu实现。 文件中的readme.txt是对代码的编译和运行以及参数的的说明。 串行代码参见https://blog.csdn.net/aiwodaqinshi/article/details/92835333
1
利用了共轭梯度这一算法的电阻率进行了三维有限单元法正演
2021-04-06 10:21:34 59KB 电阻率
1
采用自然梯度算法处理典型的盲信号分离问题。
2021-03-29 12:46:32 1KB 自然梯度算法 盲信号处理
1
基于自然梯度的盲信号分离算法,matlab直接可以运行
1
基于自然梯度算法,对盲信号分离进行了仿真。程序中采用了变步长的方法。 基于自然梯度算法,对盲信号分离进行了仿真。程序中采用了变步长的方法。
2021-03-28 09:08:55 1KB LMS 自然梯度算法 盲信号分离
1
DDPG_TF2 很难在TF2中找到简单整洁的DDPG实现,因此我做了一个。 DDPG DDPG是一种无模型的非策略算法,可在连续动作空间中学习Q函数和策略。 它受Deep Q Learning的启发,可以看作是连续acion空间上的DQN。 它利用政策外数据和Bellman方程来学习Q函数,然后使用Q函数来推导和学习政策。 在DDPG的此实现中,一开始执行n次纯探索(由rand_steps参数指定)。 通过在整个范围内均匀分布来选择动作。 主要特点: 随机(深度)模型估计可提供连续(无限)的动作空间。 使用噪声过程(例如, Ornstein–Uhlenbeck过程)进行动作空间探索。 使用经验重播可以稳定地学习以前的经验。 演员和评论家结构 在演员和评论家网络中使用目标模型(通过Polyak平均进行权重转移)。 使用Bellman方程描述每对<状态,动作>的最佳q值函数。
2021-03-10 21:36:19 8KB Python
1
解线性方程组的共轭梯度算法的MATLAB程序
2020-01-04 03:15:09 655B 共轭梯度算法,线性方程组
1
用可变步长的自然梯度算法解决盲信源分离问题。
1