模仿 在python / Tensorflow中实现选定的逆向强化学习(IRL)算法。 python demo.py 实现的算法 线性逆强化学习(Ng&Russell 2000) 最大熵逆强化学习(Ziebart et al。2008) 最大熵深度逆强化学习(Wulfmeier et al。2015) 已实施MDP和求解器 网格世界2D 网格世界1D 价值迭代 依存关系 python 2.7 cvxopt Tensorflow 0.12.1 matplotlib 线性逆向强化学习 根据Ng和Russell 2000的论文:算法,算法1 $ python linear_irl_
1
梦想控制 注意:检出的代码,该代码同时支持Atari和DMControl环境。 在TensorFlow 2中快速简单地实现Dreamer代理。 如果您认为此代码有用,请在您的论文中参考: @article{hafner2019dreamer, title={Dream to Control: Learning Behaviors by Latent Imagination}, author={Hafner, Danijar and Lillicrap, Timothy and Ba, Jimmy and Norouzi, Mohammad}, journal={arXiv preprint arXiv:1912.01603}, year={2019} } 方法 Dreamer学习了一个可以在紧凑的特征空间中进行预测的世界模型。从想象的特征序列中,它学习了策略和状态值功能
1
, you will not only learn deep reinforcement learning but also become an active contributor to the field. Deep reinforcement learning has the potential to revolutionize the world as we know it. By removing humans from decision-making processes, we set ourselves up to succeed. Humans can't match the stamina and work ethic of a computer;
2021-03-20 21:27:55 32.12MB Deep Reinforcem
1
强化学习MATLAB学习资料
2021-03-15 14:09:56 9.43MB 强化学习 matlab
1
英国国家标准-钢筋规范-BS4449-1997-Reinforcement.pdf
2021-03-15 14:04:59 1.02MB 图标设计
1
关于强化学习基本概念的介绍,是一个很不错的英文书
2021-02-18 14:08:23 10.68MB 强化学习
1
对深度强化学习的基本操作的程序。
2021-02-15 15:09:12 14.03MB 深度学习
1
关于强化学习的基础材料
2021-02-04 15:09:33 652KB 强化学习
1
模仿学习 此仓库包含一些强化学习算法的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。 但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。 结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴趣,并打算添加一些相关算法。 当前功能 目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。 每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。 Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
1
awesome-CARLA::backhand_index_pointing_right:CARLA资源,例如教程,博客,代码等https://github.comcarla-simulatorcarla
2021-02-02 12:06:22 82KB awesome simulator reinforcement-learning code
1