深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird
1
多算法比较多目标优化问题 优化问题名称:焊接梁设计 根据此问题的特点,我们使用了 优化算法: 美国国家标准学会 SPEA2 GDE3 国际教育机构 测试功能: ZDT测试套件 作者: 卡玛戈·萨拉(Camargo Saray) 段鹏范 佩里尔·塞巴斯蒂安
2021-08-17 22:06:08 10KB JupyterNotebook
1
多算法组合与模型最优:模型状态分析、线性模型的权重分析、Bad-case分析、模型融合
2021-07-18 16:10:09 14.08MB 多算法组合 模型最优 Bad-case分析
1
实时监控加密矿池和硬币,并为您的机器找到最有利可图的东西。 只需使用您的比特币地址或用户名编辑批处理文件,然后开始挖掘。 即使在基准测试期间,您也将开始赚钱! MultiPoolMiner比使用Nicehash Miner 2和Nicehash Miner Legacy更为有利,因为它使用直接池挖掘。 最低费用低于0.7%。 它支持大量挖掘池,例如CryptoNight,Ethash,Equihash,Groestl,Keccak,Lyra2RE2,Lyra2z,MyriadGroestl,NeoScrypt,Quark,Qubit,Scrypt,SHA256,Skein,X11和Yescrypt。 一些资金池高估了预计的利润。 默认情况下,MPM会将预测的算法价格降低一个校正因子(actual_last24h / estimate_last24h),以抵消池中高估的价格。 MPM支持通过配置文件进行自定义配置。
2021-05-14 15:03:33 2.83MB 开源软件
1
MATLAB车牌识别部分: 1、图像预处理:在整个车牌识别系统中,由于采集进来的图像为真彩图,再加上实际采集环境的影响以及采集硬件等原因,图像质量并不高,其背景和噪声会影响字符的正确分割。和识别,所以在进行车牌分割和识别处理之前,需要先对车牌图像进行图像预处理操作。 2、车牌定位:首先对车牌的二值图片进行形态学滤波,使车牌区域形成一个连通区域,然后根据车牌的先验知识对所得到的连通区域进行筛选,获取车牌区域的具体位置,完成从图片中提取车牌的任务。 3、车牌分割:首先对车牌进行水平投影,去除水平边框;再对车牌进行垂直投影。通过对车牌进行投影分析可知,与最大值峰中心对应的为车牌中第二个字符和第三个字符的间隔,与第二大峰中心距离对应的即为车牌字符的宽度,并以此为依据对车牌进行分割。 4、字符识别: 神经网络:先用bp神经网络训练测试集中涉及到的字符,如粤、闽等,A-Z,0-9;进行比对识别; 模板匹配:来对车牌进行识别。识别过程中,首先建立标准字库,再将分割所得到的字符进行归一化,将归一化处理后的字符与标准字库里的字符逐一比较,最后把误差最小的字符作为结果显示出来。
1
本资源基于MATLAB GUI开发的多算发雷达恒虚警检测 运行cfar.m即可调用GUI进行参数输入输出 具体内容参考我的文章:https://blog.csdn.net/qq_42679573/article/details/106103729 新人学生博主,专注雷达通信,信号处理,多多关注呦
2021-03-04 10:26:46 96KB matlab GUI CFAR 多算法
1
模仿学习 此仓库包含一些强化学习算法的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。 但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。 结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴趣,并打算添加一些相关算法。 当前功能 目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。 每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。 Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
1