d4rl-小球 使用Pybullet环境进行数据驱动的深度强化学习的数据集。 这项工作旨在通过开源项目符号模拟器为数据驱动的深度强化学习提供数据集,从而鼓励更多的人加入该社区。 该存储库建立在。 但是,当前,如果不检查MuJoCo激活密钥就无法导入d4rl,这会使程序失败。 因此, d4rl_pybullet.offline_env是直接从复制的。 安装 $ pip install git+https://github.com/takuseno/d4rl-pybullet 用法 该API与原始d4rl基本相同。 import gym import d4rl_pybullet # dataset will be automatically downloaded into ~/.d4rl/datasets env = gym . make ( 'hopper-bullet-mixed-v0
1
蛇艾 当前的项目是游戏Snake的深度强化学习的实现。 范围是显示AI蛇如何学会自己玩游戏。 项目结构 该代码分为以下软件包: game_src :实际游戏的源代码 snake_nn :深度学习实现的源代码 saved_models :训练后保存模型的文件夹。 演示模型包含在此文件夹中 为了清楚起见,存在三个不同的主文件,一个相互独立。 即使这重复了代码,也可以更好地用于项目演示。 每个文件可以单独执行。 main.py-手动播放模式。 它加载游戏并允许用户玩游戏。 main_ai_train.py-为蛇执行训练算法并保存输出模型。 main_ai_replay.py-加载模型并使用模型中的神经网络运行游戏。 项目执行 克隆当前的git仓库。 在执行之前,请确保安装所有来自requirements.txt的依赖项。 pip install -r requirements.txt
2022-03-28 09:08:22 1.44MB Python
1
the option-critic architecture中英文PDF,适合HRL学习,PDF清晰。中文翻译较准确,对照英文论文,理解更容易些
2022-03-26 21:10:29 1.01MB 深度强化学习
1
用于定量金融自动股票交易的深度强化学习库FinRL:用于定量金融自动股票交易的深度强化学习库该存储库引用了我们的论文代码,该代码出现在Deep RL Workshop,NeurIPS 2020中。 DRL)已被认为是量化金融的一种有效方法,动手实践经验对初学者很有吸引力。 但是,要训练一个实际的DRL交易代理,该代理决定在哪里进行交易,以什么价格和什么数量进行交易就容易出错。
2022-03-25 22:15:16 7.74MB Python Deep Learning
1
pytorch-vsumm-reforce 此存储库包含AAAI'18论文的Pytorch实施-。 原始的Theano实现可以在找到。 主要要求是 ( v0.4.0 )和python 2.7 。 和可能未安装在您的计算机中。 请安装其他缺少的依赖项。 开始吧 下载预处理的数据集 git clone https://github.com/KaiyangZhou/pytorch-vsumm-reinforce cd pytorch-vsumm-reinforce # download datasets.tar.gz (173.5MB) wget http://www.eecs.qmul.ac.uk/~kz303/vsumm-reinforce/datasets.tar.gz tar -xvzf datasets.tar.gz 分割 python create_split.py -d da
1
TensorFlow中的深度强化学习 TensorFlow实施深度强化学习论文。 该实现包含: [1] [2][3][4][5](进行中) [6](正在进行中) [7](进行中) [8](正在进行中) 要求 Python 2.7 或 用法 首先,使用以下命令安装必备组件: $ pip install -U 'gym[all]' tqdm scipy 不要忘了还要安装最新的 。 还请注意,您需要安装所需的依赖项gym[all] 在没有gpu的情况下使用所述的DQN模型进行训练: $ python main.py --network_header_type=nips --env_na
1
使用中央模式生成器和神经网络的双足运动的分层控制 (汉堡大学智能自适应系统科学论文硕士) 受生物学启发的,分层的两足机器人运动控制器。 在较低级别,具有反馈路径的CPG网络(基于)控制着各个关节。 CPG网络的参数通过遗传算法进行了优化。 在更高的层次上,神经网络对CPG网络的输出进行调制,以优化机器人相对于整体目标的运动。 在这种情况下,目的是使步行时由于滑移或不完善的机器人模型而产生的横向偏差最小。 使用(深度强化学习算法)训练神经网络。 这项工作是使用。 即使在存在系统性和非系统性错误的情况下,分级控制器也可以使横向偏差最小化。 路径为红色的机器人仅使用CPG网络。 对于蓝色路径,使用了分层控制器。 高亮显示的情况(从左起第4个)显示了性能最佳的超参数设置。 纸 在ICDL-Epirob 2019上展示的论文可以在或进行查看。 论文 我的硕士学位论文可以在查看或下载。 视频 在可
2022-03-17 23:04:56 1.46MB Python
1
DeepRL 深度强化学习的框架。 特征: 算法分为模块 易于异步运行的算法 易于添加新算法 依存关系 python3.6 麻木 火炬 健身房 安装 git clone https://github.com/ppaanngggg/DeepRL pip install -e . 模块: 1.代理 DoubleDQNAgent:具有双Q学习功能的基础深度Q学习 通过深度强化学习进行人为控制 双重Q学习的深度强化学习 DDPGAgent:通过深度确定性策略梯度继续控制 具有深度强化学习的连续控制 PPOAgent:通过近端策略优化继续控制 近端策略优化算法 2.重播 重播:基本重播,从池中随机选择并删除最旧的一个 通过深度强化学习进行人为控制 ReservoirReplay:从池中随机选择一个,然后随机删除一个,用于NFSPAgent的策略网络 在不完全信息游戏中通过自我玩法进行深度强化
2022-03-11 11:06:16 38KB Python
1
turtlebot3强化学习避障,包括DQN, DDPG,PPO,SAC。 转载地址 https://github.com/Crawford-fang/ROS_pytorch_RL/tree/main/DQN 我就用过DQN,里面有很多需要修改的地方。主要是包括路径的代码,改成自己的路径。还有神经网络输入数量有错,需要和雷达接收到的数据维度一致。还有存储空间有错,大小应该为两倍输入数据的大小加上奖励数据和动作数据的大小。代码可用于其他环境和雷达小车
2022-03-10 20:34:34 358KB ROS DQN 深度强化学习 避障
1
通过深度强化学习的交通信号时间,IEEE最新文章 .打造交通信号控制的强化学习系统 如果把由信号机、检测器等组成的交通信号控制系统当成一个“智能体”,将我们目睹的人车路当成“环境”,通过如下方式就可以构造强化学习系统:传感器从环境里获取观测状态(例如:流量、速度、排队长度等),传递给信号机,信号控制系统根据这些状态来选择一个得分最高状态的动作来执行(例如:当前相位保持绿灯或者切换成红灯),并对执行效果进行回馈(例如:采用排队长度作为回报函数),系统根据回报结果,调整打分系统的参数。这样就形成一个循环的过程,就能达到不断学习改进。
2022-03-06 11:18:21 909KB 深度学习IEEE
1