用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1
论文的word格式 原论文地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf 翻译:https://blog.csdn.net/baishuiniyaonulia/article/details/125504660,https://blog.csdn.net/baishuiniyaonulia/article/details/125572881
2022-07-02 16:08:43 835KB word 翻译 论文 强化学习
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
hBayesDM hBayesDM (决策任务的多层贝叶斯建模)是一种用户友好的程序包,可对一系列决策任务上的各种计算模型提供分层的贝叶斯分析。 hBayesDM使用进行贝叶斯推理。 现在, hBayesDM支持和 ! 快速链接 教程: : (R)和 (Python) 邮件列表: : forum / hbayesdm-users 错误报告: https : //github.com/CCS-Lab/hBayesDM/issues 贡献:请参阅此存储库的Wiki 。 引文 如果您使用hBayesDM或其某些代码进行研究,请引用本文: @article { hBayesDM , title = { Revealing Neurocomputational Mechanisms of Reinforcement Learning and Decision-Making
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
control-systems-and-reinforcement-learning.pdf 控制系统与强化学习.pdf
2022-05-30 19:08:36 32.22MB 源码软件
1
Richard Sutton and Andrew Barto 的经典书籍《Reinforcement Learning- an introduction》。阅读本书是学习强化学习之路上不可避免的一环。而本书是经过两次修改2018年的最新版本。同时推荐youtube上面Alpha Go项目组David Silver的教学视屏,搭配学习,效果更佳哦~
2022-05-29 15:50:05 12.2MB 强化学习 电子书 Reinforce Le
1
强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。
2022-05-20 22:05:09 5.94MB 强化学习
CS50-AI项目 哈佛大学课程(课程。 专案 周 话题 名称 描述 怎么跑 视频 0 搜索 确定两个角色分开多少度 $ python degrees.py large 0 搜索 使用Minimax最佳玩井字游戏 $ python runner.py 1个 知识 解决逻辑难题 $ python puzzle.py 1个 知识 玩扫雷 $ python runner.py 2 不确定 按重要性对网页进行排名 $ python pagerank.py corpus0 2 不确定 评估一个人可能具有特定遗传特征的可能性 $ python heredity.py data/family0.cs
2022-05-20 11:27:31 201.85MB reinforcement-learning ai nim crossword
1
MuZero与Tensorflow中的AlphaZero 我们提供了基于流行的AlphaZero-General实施的AlphaZero和MuZero算法的可读性,注释性,充分记录的以及概念上容易实现的算法。 我们的实现将AlphaZero扩展为可用于单人游戏域,例如其后续产品MuZero。 该代码库提供了一个模块化框架来设计您自己的AlphaZero和MuZero模型,以及一个API来使这两种算法相互抵触。 该API还允许MuZero代理在与环境交互过程中更加强烈地依赖其学习的模型。 程序员可以例如指定在试验期间对所学的MuZero代理的观察稀疏性。 我们的界面还提供了足够的抽象来扩展MuZero或AlphaZero算法,以用于研究目的。 请注意,我们没有在桌游上进行广泛的测试,我们体验到这非常耗时且难以调整。 经过良好测试的环境包括“健身房”环境:CartPole-v1,Mount
1