行为克隆是模仿学习经典算法之一。本文主要介绍行为克隆的框架。
2022-05-18 09:56:32 331KB 行为克隆 模仿学习
1
行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码行为克隆代码
2022-03-17 19:43:53 2.02MB 行为克隆
1
行为克隆项目 总览 该存储库包含行为克隆项目的启动文件。 在这个项目中,您将使用对深度神经网络和卷积神经网络学到的知识来克隆驾驶行为。 您将使用Keras训练,验证和测试模型。 该模型将向自动驾驶汽车输出转向角。 我们提供了一个模拟器,您可以在其中驾驶汽车绕轨道进行数据收集。 您将使用图像数据和转向角来训练神经网络,然后使用此模型在轨道周围自动驾驶汽车。 我们还希望您创建该项目的详细说明。 出该项目的,并将其用作创建自己的编写的起点。 书写内容可以是markdown文件或pdf文档。 为了满足规范,该项目将需要提交五个文件: model.py(用于创建和训练模型的脚本) drive.py(用于开车的脚本-随时修改此文件) model.h5(训练有素的Keras模型) 报告撰写文件(降价或pdf) video.mp4(您的车辆在赛道上自动行驶至少一整圈的视频记录) 此自述
2021-12-24 20:26:46 24.75MB JupyterNotebook
1
卷积神经网络行为克隆方法在无人车上的研究.pdf
2021-09-25 22:05:42 2.23MB 神经网络 深度学习 机器学习 数据建模
模仿学习 此仓库包含一些强化学习算法的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。 但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。 结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴趣,并打算添加一些相关算法。 当前功能 目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。 每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。 Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
1