TensorFlow2中的分布式RL 是一个使用实现各种流行的分布增强学习算法的存储库。 分布式RL是适用于随机环境的算法。 如果您想研究Distribution RL,则此存储库将是最佳选择。 dist-rl-tf2包含由领先的AI研究机构发布的三种Distribution RL算法。 演算法 C51 论文作者Marc G.Bellemare,Will Dabney,RémiMunos 方法OFF政策/时间差异/无模型仅限离散操作 观念的核心 # idea01. The output of the Q Network is a Distribution Vector, not a Scalar Value. def create_model ( self ): input_state = Input (( self . state_dim ,)) h1 = Dens
2023-02-19 23:32:48 458KB machine-learning deep-learning tensorflow dqn
1
盆式PPO 关于沉思-PPO 这是Pensieve [1]的一个简单的TensorFlow实现。 详细地说,我们通过PPO而非A3C培训了Pensieve。 这是一个稳定的版本,已经准备好训练集和测试集,并且您可以轻松运行仓库:只需键入 python train.py 反而。 将每300个时代在测试集(来自HSDPA)上评估结果。 实验结果 我们报告了熵权重β,奖励和熵的训练曲线。 通过双簧管网络轨迹评估结果。 提示:橙色曲线:pensieve-ppo; 蓝色曲线:pensieve-a2c 预训练模型 此外,我们还在添加了预训练模型 与原始Pensieve模型相比,该模型的平均QoE提高了7.03%(0.924-> 0.989)。 如果您有任何疑问,请随时告诉我。 [1] Mao H,Netravali R,Alizadeh M.带自适应神经网络自适应视频流[C] // ACM数据
2023-02-16 13:49:26 2.71MB reinforcement-learning dqn pensieve ppo
1
DQN综述(修正版).pdf
2022-12-13 21:21:11 642KB 强化学习
1
# Inverted-Pendulum 强化学习大作业1 倒立摆 包括Q值迭代、SARSA、DQN三种算法。 game的my_Pendulum是按gym的环境定义的我自己的倒立摆环境,其参数与game的Pendulum-v0不同
2022-12-12 11:28:30 22KB 强化学习 DQN 倒立摆
RL飞扬的鸟 概述 该项目是强化学习的基本应用。 它集成了以使用DQN来训练代理。 预训练模型在单个GPU上以3M步进行训练。 您可以找到解释培训过程的,或。 构建项目并运行 该项目支持使用Maven进行构建,您可以使用以下命令进行构建: mvn compile 以下命令将开始在没有图形的情况下进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。 您也可以尝试使用预先训练的体重进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试,您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki
2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn
1
pytorch-DQN DQN的Pytorch实现 DQN 最初的Q学习使用表格方法(有关更多详细信息和实现,请参见 )来解决,但是,表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。 例如,环境为210x180黑白像素的游戏。 将有$ 2 ^ {180 * 210} $个可能的状态,对于一个表来说,这太多了。 DeepMind通过深度神经网络以DQN形式将DQN形式的深度学习和Q学习相结合,以近似值,首先在游戏中击败人类。 简而言之,DQN用深度神经网络(CNN或DNN)替换了表格,并使用目标网络来执行Bellman方程更新。 为了实现它,使用了一些技巧,例如目标网络和体验重播。 引入目标网络以收敛模型,因为频繁更新会使模型处于不稳定状态。 体验重播使用缓冲区存储所有过去(状态,动作,next_state)对,并通过对过去的体验进行采样来训练模型,这有
2022-11-23 09:47:12 1.5MB Python
1
强化学习 dqn打砖块 参数文件,最高回报七十四分
2022-11-05 14:06:04 6.44MB 参数文件
1
详细研究了深度Q-学习算法,它形成了深度Q网络(DQN)的基础这可能是当今强化学习中最具创新性的领域。这里将逐步介绍DQN,包括一些改变游戏规则的创新,如体验回放,以准确了解它们是如何帮助dqn在首次引入时实现世界一流的结果的。
2022-10-31 09:08:47 1.29MB 强化学习 机器学习 DQN
1
DQN实现matlab强化学习,解决倒立摆问题
2022-10-28 16:17:05 1KB pendulum SIMULINK MATLAB实现DQN DQN
1
第7课 强化学习中的深度Q网络(DQN)
2022-10-17 13:05:36 570KB 强化学习 DQN
1