模仿学习赛车 这个精益的存储库具有从头开始训练和评估赛车Tensorflow模型所需的所有工具! 实际上,仅需5集(不到5分钟)即可生成足够的数据以使模型能够胜任! 注意:上面显示的游戏玩法是在5集训练模型后得出的。 使用更多的训练数据,它可以表现得更好! 此外,它还具有像素化功能,因此您可以看到模型在播放时所看到的效果(96 x 96)。
2023-03-02 16:58:20 12.58MB JupyterNotebook
1
自主驾驶车辆的深度模仿学习 自动驾驶汽车已经引起了学术界(例如牛津,麻省理工学院)和工业界(例如Google,特斯拉)的极大兴趣。 但是,由于普遍的知识,我们发现直接实现全自动驾驶(SAE 5级)非常困难。 为了解决这个问题,深度模仿学习是一种有前途的解决方案,可以从人类的演示中学习知识。 在这个项目中,我们研究了如何使用深度模仿学习来实现车辆动态控制(例如转向角,速度)。 我们使用了Udacity( )提供的数据集和模拟器以及现实世界中的comma.ai数据集。
2023-03-02 16:47:03 14KB Python
1
使用 BC 增强 GAIL 以实现样本高效的模仿学习 论文官方实现,在 PyTorch 中。 它建立在流行的 RL 算法存储库的 PyTorch 实现之上(下面的自述文件)。 安装 从requirements.txt文件安装所需的包。 使用pip install -e安装这个包。 再现结果 要重现 GAIL 的结果,请运行gail.sh脚本。 请务必先更改a2c_ppo_acktr/arguments.py的默认日志和模型路径。 要运行的一般脚本是 ./.sh 其中关键字method对应于以下实验/基线 方法 实验/基线 盖尔 盖尔 基线 BC 预训练 + GAIL 微调 密码 我们的方法 红帆 红帆 阿尔法穆乔科 \alpha效应的消融 布诺盖尔 消融对 BC + 未经训练的 GAIL 的影响 对以下 mujoco 环境使用以下steps
2023-01-05 15:59:39 8.54MB Python
1
pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,同步pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,这是A3C近端策略优化PPO的同步确定性版本,用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子:A2C / ACKTR和PPO获得更多信息
2022-05-26 11:38:01 8.53MB Python Deep Learning
1
行为克隆是模仿学习经典算法之一。本文主要介绍行为克隆的框架。
2022-05-18 09:56:32 331KB 行为克隆 模仿学习
1
使用PyTorch生成对抗式模仿学习 该存储库用于使用PyTorch的生成对抗模拟学习(GAIL)的简单实现。 该实现基于原始的GAIL论文()和我的Reinforcement Learning Collection存储库()。 在此存储库中,诸如CartPole-v0 , Pendulum-v0和BipedalWalker-v3类的环境。 您需要先安装它们,然后才能运行此存储库。 安装依赖项 安装Python 3。 将Python软件包安装在requirements.txt 。 如果将虚拟环境用于Python软件包管理,则可以使用以下bash命令安装所需的所有python软件包: $ pip install -r requirements.txt 安装其他软件包以运行OpenAI Gym环境。 这些取决于您机器的开发设置。 安装PyTorch。 PyTorch的版本应大于或等于
2022-05-06 17:52:57 1.64MB Python
1
随着时空跟踪和传感数据的不断增长,现在人们可以在大范围内分析和建模细粒度行为。例如,收集每一场NBA篮球比赛的跟踪数据,包括球员、裁判和以25hz频率跟踪的球,以及带注释的比赛事件,如传球、投篮和犯规。
2022-03-27 21:00:23 63.87MB 模仿学习
1
模仿学习就是希望机器能够通过观察模仿专家的行为来进行学习。OpenAI,DeepMind,Google Brain目前都在向这方面发展。
2022-01-27 11:38:00 21.53MB 深度学习 GAN 生成对抗网络 模仿学习
1
仿制学习用纸清单 RL中的模仿学习论文集,并有简要介绍。 该馆藏涉及“ ,还包含自我收集的论文。 确切地说,“模仿学习”是向专家演示(LfD)学习的普遍问题。 从这种描述中可以得出两个名称,由于历史原因,它们分别是“模仿学习”和“学徒学习”。 通常,学徒制学习是在“通过逆向强化学习(IRL)进行学徒制学习”的上下文中提及的,它可以恢复奖励功能并从中学习策略,而模仿学习始于直接克隆行为的行为,即直接学习该策略( 和Morgan- Kaufmann,NIPS 1989)。 然而,随着相关研究的发展,“模仿学习”一直被用来代表一般的LfD问题设置,这也是我们的观点。 通常,模仿学习的不同设置会衍生到不同的特定领域。 一种普遍的设置是,一个人只能从不互动的专家处获得(1)对预收集的轨迹((s,a)对)(2)他可以与环境进行交互(使用模拟器)(3)而没有奖励信号。 在这里,我们列出了一些其他设置
2021-11-23 15:08:46 12KB
1
Imitation Learning(模仿学习)是强化学习的一个分支,因其能很好的解决强化学习中的多步决策(sequential decision)问题,近段时间得到了广泛关注。那么模仿学习近期的前沿进展如何呢,来自加州理工大学的Yisong Yue,昨天在芝加哥大学,做了名为《New Frontiers in Imitation Learning》讲座。新鲜出炉的PPT,一起来看看吧。
2021-11-17 15:35:21 67.78MB imitation_learni
1