与抽象状态相关联.这种关联性信息可以产生对应 问题的学习 技 巧(也 称 为 Option).例 如,在 著 名 的 出租车问题中[87],其中的一组抽象状态是出租车起 始和乘客所处的位置,那么此时Option就是从出租 车起始位置到乘客所处位置的一系列动作组合.很 明显,生成的Option相当于h-DQN模型中设定的 中间目标,省去了复杂的人工设定中间目标的过程, 并使得学习到的Option与具体的学习任务无关.因 此在相同的状态空间下,该模型具有很强的泛化性. 6.3 深度后续强化学习 一般地,在 只 给 定 原 始 输 入 观 察 和 奖 赏 值 的 情况下,通 过 基 于 模 型(model-based)或 者 模 型 无 关(model-free)的DRL算 法 可 以 学 习 到 鲁 棒 的 值 函数.后 续 状 态 表 示 法(Successor Representation, SR)为学习值函数提供了第3种选择.SR将值函数 分解为两个部分:后续状态映射图(successor map) 和立即奖赏指示器(reward predictor).后续状态映 射图表示在给定当前状态下到达未来某一状态占有 率的期望.立即奖赏指示器表示从状态到奖赏值的 映射.在SR中,这两个部分以内积的形式构成值函 数.基于上述理论知识,Kulkarni等人[88]将SR的应 用范围扩展到大规模状态空间的DRL问题中,提出 了深度后续强化学习(Deep Successor Reinforcement Learning,DSRL). 21 计  算  机  学  报 2018年
1
用深度强化学习玩雅达利-------汇总
2021-09-01 09:13:45 60KB 神经网络
1
基于视觉注意机制深度强化学习的行人检测方法.pdf
2021-08-31 18:03:03 6.11MB 互联网 资料
基于随机遮挡辅助深度表征学习的车辆再辨识.pdf
2021-08-31 18:03:03 8.86MB 互联网 资料
基于特定深度内部学习网络提高“不理想”图像分辨率.pdf
2021-08-31 18:03:02 6.4MB 互联网 资料
DQN深度强化学习算法, 水下机器人姿态控制, python代码
2021-08-29 20:03:04 10KB DQN python代码 姿态控制
A2C深度强化学习算法, 姿态控制, python代码
深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird
1
基于UDTL的智能诊断基准 代码发布,张启阳和余晓磊的。 更正 2020.06.02,我们修改了util / train_utils_combines中的错误。 (class_num-> num_classes)。 指导 该项目仅提供基线(下限)精度和基于无监督深度转移学习(UDTL)的统一智能故障诊断库,该库为每个人保留了扩展的接口,以供他们自己加载自己的数据集和模型以进行新的研究。 同时,所有实验都是通过在装有Intel Core i7-9700K,GeForce RTX 2080Ti和16G RAM的计算机上运行,​​在Window 10和Pytorch 1.3下执行的。 要求 Python 3.7 脾气暴躁的1.16.2 熊猫0.24.2 泡菜 tqdm 4.31.1 斯克莱恩0.21.3 Scipy 1.2.1 OpenCVPython的4.1.0.25 PyWav
2021-08-24 21:47:12 187KB 系统开源
1
cnn源码matlab #基于深度迁移学习对JPEG图像进行隐写分析 keywords:deep learning,transfer learning,steganalysis ##内容介绍 DCTR_matlab:使用MATLAB实现的残差图像的离散余弦变换算法。 SRNet:隐写分析残差网络实现,CNN网络中加入深度学习短连接(shortcut connections)的残差层。 log:保存tensorboard可视化查看日志文件,可在网页localhost:6060中打开,观察网络和张量的变化以及进行loss,acc曲线图的绘制等。 savemodel:训练过程中保存的训练模型。 conv.py:CNN网络的卷积层等部分,主要用来进行隐写特征提取。 dataload.py:对JPEG图像进行处理生成网络能够读取的格式。 dctr.py:对JPEG图像进行DCTR(残差图像的离散余弦变换)进行DCT基核滤波提取图像在变换域(频域空间)的隐写特征,以及使用高通滤波器进行空间域的特征提取。 distance:计算源域和目标域数据的KV核距离(高斯核和线性核)。 others.py:用
2021-08-24 16:14:27 19.06MB 系统开源
1