Easy-RL 李宏幽默老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子例证解强化学习理论。某些老师经常会用玩Atari游戏的例子解释解解强化学习算法。如此,为了课程的补充,我们整理了周博磊老师的《强化学习纲要》,李科浇老师的《百度强化学习》。以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。 使用说明 第4章到第11章为的部分; 第1章和第2章根据整理而来; 第3章和第12章根据整理而来。 在线阅读(内容实时更新) 地址: : 内容导航 章节 习题 项目 算法代码实现一览 算法名称 相关论文材料 备注 进度 蒙特卡洛算法 好的 好的 好的 好的 DQN-cnn 与DQN索引使用了CNN而不是全链接网络 好的 好的 分层DQN 好的 好的 DDPG 好
1
人工智人-家居设计-RL智能安检设备制造公司市场营销策略研究.pdf
2022-07-03 19:03:45 818KB 人工智人-家居
matlab代码做游戏2048-rl 该存储库包含用于实施强化学习代理的代码,这些学习代理试图学习玩流行的游戏2048。该代码用C ++编写,试图使各种学习实验尽快运行。 我还提供了一些Matlab脚本来可视化结果。 编译和运行代码 要完成的第一步是编译代码。 要编译此存储库中包含的所有程序,只需打开一个终端,然后导航到包含代码的目录。 然后,执行make命令: 2048-rl$ make 如果只希望编译特定程序,也可以这样做。 例如,如果您希望编译qLearning程序,请运行以下命令: 2048-rl$ make qLearning 在存储库中编译完各种程序之后,您可以执行许多操作。 手动播放2048 程序play2048允许用户手动播放2048。该程序是作为对游戏环境的测试而创建的,但它本身仍然很有趣。 训练软件代理该项目的全部目的是为2048实施增强学习代理。您可以训练三种不同类型的软件代理: Q学习代理 时差学习代理(适用于游戏状态) 时差学习代理(适用于游戏后状态) 培训每个代理的程序分别是qLearning , stateLearning和afterStateLearni
2022-06-20 18:52:10 29KB 系统开源
1
介绍了动态规划(DP), 强化学习(RL) 和 自适应动态规划(ADP).
1
强化学习对抗攻击和防御 DQN政策 战略定时攻击 统一攻击 对抗训练 该存储库为深度强化学习代理实现了一些经典的对抗攻击方法,包括( drl_attacks/ ): 统一攻击[]。 战略定时攻击[]。 临界点攻击[]。 关键策略攻击。 对抗性政策攻击[]。 也可以使用以下RL防御方法( drl_defenses/ ): 对抗训练[]。 还提供了一些图像防御方法( img_defenses/ ): JPEG转换[]。 位压缩[ ]。 图像平滑[]。 该项目大部分基于基于的RL框架守。 图片敌对攻击和防御都与实施 ,也是基于Pytorch。 相反,A2C和PPO策略基于pytorch-a2c-ppo-acktr-gail ,DQN使用了天守实现。 任何图像对抗攻击都与此项目兼容。 可用型号 它还可以在文件夹log找到适用于不同任务的训练有素的模型。 下表报告了三种
1
自我监督预测的好奇心驱动探索 在ICML 2017中 , , ,加州大学伯克利分校 这是我们基于ICLS 基于张量流的实现,该。 当来自环境的外部奖励稀疏时,想法是用内在的基于好奇心的动机(ICM)来培训代理商。 令人惊讶的是,即使环境中没有可用的奖励,您也可以使用ICM,在这种情况下,代理仅出于好奇而学会探索:“没有奖励的RL”。 如果您发现这项工作对您的研究有用,请引用: @inproceedings{pathakICMl17curiosity, Author = {Pathak, Deepak and Agrawal, Pulkit and Ef
2022-05-30 14:48:41 2.04MB mario deep-neural-networks deep-learning tensorflow
1
安装 首先在requirements.txt安装需求,然后运行pip install -e .
2022-05-20 11:20:21 932KB JupyterNotebook
1
此函数生成分数阶的根轨迹 (RL) 图传递函数(对于 LTI 系统)。 第一个图是 RL 上的s 平面,第二个图是 s 平面第 1 个黎曼表上的 RL 输入是分子和分母多项式系数, 和基本阶 lambda(即的最小公分母) 分子和分母的所有分数阶数)。 输出返回图形包。 例如对于下面的传递函数: 1.2s^{1.3}+1 1.2s^{13/10}+1 G(s)= ----------------------------- = --------------- ------------------- 0.8s^{2.6}+s^{1.3}+1 0.8s^{26/10}+s^{13/10}+1 拉姆达 = 10; num = [1.2 零 (1,12) 1]; den = [0.8, zeros(1,12), 0.6, zeros(1, 12), 1]; 调用函数的语法是:[fh1, fh2] =
2022-05-10 19:04:28 3KB matlab
1
基于李宏毅课程总结
2022-05-06 10:35:16 599KB PPO RL 强化学习
1
基于李宏毅的课程
2022-05-06 10:33:19 1.05MB PPO RL
1