搜索【dqn.】的结果

DistRL-TensorFlow2:using使用TensorFlow2实现各种分布式强化学习算法

TensorFlow2中的分布式RL 是一个使用实现各种流行的分布增强学习算法的存储库。分布式RL是适用于随机环境的算法。如果您想研究Distribution RL，则此存储库将是最佳选择。 dist-rl-tf2包含由领先的AI研究机构发布的三种Distribution RL算法。演算法 C51 论文作者Marc G.Bellemare，Will Dabney，RémiMunos 方法OFF政策/时间差异/无模型仅限离散操作观念的核心 # idea01. The output of the Q Network is a Distribution Vector, not a Scalar Value. def create_model ( self ): input_state = Input (( self . state_dim ,)) h1 = Dens

2023-02-19 23:32:48 458KB machine-learning deep-learning tensorflow dqn

1

Pensieve-PPO:通过最新的RL算法（包括DQN，A2C，PPO和SAC）最简单地实现Pensieve（SIGCOMM 17'）

盆式PPO 关于沉思-PPO 这是Pensieve [1]的一个简单的TensorFlow实现。详细地说，我们通过PPO而非A3C培训了Pensieve。这是一个稳定的版本，已经准备好训练集和测试集，并且您可以轻松运行仓库：只需键入 python train.py 反而。将每300个时代在测试集（来自HSDPA）上评估结果。实验结果我们报告了熵权重β，奖励和熵的训练曲线。通过双簧管网络轨迹评估结果。提示：橙色曲线：pensieve-ppo；蓝色曲线：pensieve-a2c 预训练模型此外，我们还在添加了预训练模型与原始Pensieve模型相比，该模型的平均QoE提高了7.03％（0.924-> 0.989）。如果您有任何疑问，请随时告诉我。 [1] Mao H，Netravali R，Alizadeh M.带自适应神经网络自适应视频流[C] // ACM数据

2023-02-16 13:49:26 2.71MB reinforcement-learning dqn pensieve ppo

1

DQN综述(修正版).pdf

2022-12-13 21:21:11 642KB 强化学习

1

强化学习DQN实现倒立摆游戏

# Inverted-Pendulum 强化学习大作业1 倒立摆包括Q值迭代、SARSA、DQN三种算法。 game的my_Pendulum是按gym的环境定义的我自己的倒立摆环境，其参数与game的Pendulum-v0不同

2022-12-12 11:28:30 22KB 强化学习 DQN 倒立摆

RL-FlappyBird:使用强化学习训练FlappyBird

RL飞扬的鸟概述该项目是强化学习的基本应用。它集成了以使用DQN来训练代理。预训练模型在单个GPU上以3M步进行训练。您可以找到解释培训过程的，或。构建项目并运行该项目支持使用Maven进行构建，您可以使用以下命令进行构建： mvn compile 以下命令将开始在没有图形的情况下进行训练： mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。您也可以尝试使用预先训练的体重进行训练： mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试，您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki

2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn

1

pytorch-DQN:DQN的Pytorch实现

pytorch-DQN DQN的Pytorch实现 DQN 最初的Q学习使用表格方法（有关更多详细信息和实现，请参见）来解决，但是，表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。例如，环境为210x180黑白像素的游戏。将有$ 2 ^ {180 * 210} $个可能的状态，对于一个表来说，这太多了。 DeepMind通过深度神经网络以DQN形式将DQN形式的深度学习和Q学习相结合，以近似值，首先在游戏中击败人类。简而言之，DQN用深度神经网络（CNN或DNN）替换了表格，并使用目标网络来执行Bellman方程更新。为了实现它，使用了一些技巧，例如目标网络和体验重播。引入目标网络以收敛模型，因为频繁更新会使模型处于不稳定状态。体验重播使用缓冲区存储所有过去（状态，动作，next_state）对，并通过对过去的体验进行采样来训练模型，这有

2022-11-23 09:47:12 1.5MB Python

1

强化学习 dqn打砖块参数文件，最高回报七十四分

2022-11-05 14:06:04 6.44MB 参数文件

1

强化学习DQN框架学习（超级详细）

详细研究了深度Q-学习算法，它形成了深度Q网络（DQN）的基础这可能是当今强化学习中最具创新性的领域。这里将逐步介绍DQN，包括一些改变游戏规则的创新，如体验回放，以准确了解它们是如何帮助dqn在首次引入时实现世界一流的结果的。

2022-10-31 09:08:47 1.29MB 强化学习 机器学习 DQN

1

SimulinkPendulumDQN_pendulum_SIMULINK_MATLAB实现DQN_DQN_DQNmatlab_

DQN实现matlab强化学习，解决倒立摆问题

2022-10-28 16:17:05 1KB pendulum SIMULINK MATLAB实现DQN DQN

1

第7课强化学习中的深度Q网络(DQN)

2022-10-17 13:05:36 570KB 强化学习 DQN

1

个人信息

热门下载

最新下载

其他资源