Time-series-forecasting-via-deep-reinforcement-learning
2022-07-18 16:07:00 104KB 代码
1
Draft, Second edition, in progress. Richard S. Sutton and Andrew G. Barto
2022-07-14 18:34:50 8.76MB 强化学习 Sutton
1
Easy-RL 李宏幽默老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子例证解强化学习理论。某些老师经常会用玩Atari游戏的例子解释解解强化学习算法。如此,为了课程的补充,我们整理了周博磊老师的《强化学习纲要》,李科浇老师的《百度强化学习》。以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。 使用说明 第4章到第11章为的部分; 第1章和第2章根据整理而来; 第3章和第12章根据整理而来。 在线阅读(内容实时更新) 地址: : 内容导航 章节 习题 项目 算法代码实现一览 算法名称 相关论文材料 备注 进度 蒙特卡洛算法 好的 好的 好的 好的 DQN-cnn 与DQN索引使用了CNN而不是全链接网络 好的 好的 分层DQN 好的 好的 DDPG 好
1
用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1
论文的word格式 原论文地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf 翻译:https://blog.csdn.net/baishuiniyaonulia/article/details/125504660,https://blog.csdn.net/baishuiniyaonulia/article/details/125572881
2022-07-02 16:08:43 835KB word 翻译 论文 强化学习
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
hBayesDM hBayesDM (决策任务的多层贝叶斯建模)是一种用户友好的程序包,可对一系列决策任务上的各种计算模型提供分层的贝叶斯分析。 hBayesDM使用进行贝叶斯推理。 现在, hBayesDM支持和 ! 快速链接 教程: : (R)和 (Python) 邮件列表: : forum / hbayesdm-users 错误报告: https : //github.com/CCS-Lab/hBayesDM/issues 贡献:请参阅此存储库的Wiki 。 引文 如果您使用hBayesDM或其某些代码进行研究,请引用本文: @article { hBayesDM , title = { Revealing Neurocomputational Mechanisms of Reinforcement Learning and Decision-Making
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
control-systems-and-reinforcement-learning.pdf 控制系统与强化学习.pdf
2022-05-30 19:08:36 32.22MB 源码软件
1
Richard Sutton and Andrew Barto 的经典书籍《Reinforcement Learning- an introduction》。阅读本书是学习强化学习之路上不可避免的一环。而本书是经过两次修改2018年的最新版本。同时推荐youtube上面Alpha Go项目组David Silver的教学视屏,搭配学习,效果更佳哦~
2022-05-29 15:50:05 12.2MB 强化学习 电子书 Reinforce Le
1