盆式PPO 关于沉思-PPO 这是Pensieve [1]的一个简单的TensorFlow实现。 详细地说,我们通过PPO而非A3C培训了Pensieve。 这是一个稳定的版本,已经准备好训练集和测试集,并且您可以轻松运行仓库:只需键入 python train.py 反而。 将每300个时代在测试集(来自HSDPA)上评估结果。 实验结果 我们报告了熵权重β,奖励和熵的训练曲线。 通过双簧管网络轨迹评估结果。 提示:橙色曲线:pensieve-ppo; 蓝色曲线:pensieve-a2c 预训练模型 此外,我们还在添加了预训练模型 与原始Pensieve模型相比,该模型的平均QoE提高了7.03%(0.924-> 0.989)。 如果您有任何疑问,请随时告诉我。 [1] Mao H,Netravali R,Alizadeh M.带自适应神经网络自适应视频流[C] // ACM数据
2023-02-16 13:49:26 2.71MB reinforcement-learning dqn pensieve ppo
1
安装 首先在requirements.txt安装需求,然后运行pip install -e .
2022-05-20 11:20:21 932KB JupyterNotebook
1
[附件中程序使用的详细说明]摄像平台高速靠近目标时,会使成像产生从中心到边缘呈放射状径向模糊的问题,影响对目标的探测、识别与跟踪。针对这一典型的空间变化运动模糊情形,根据实际的目标离散成像过程,推导出 径向模糊图像在极坐标系中的数学模型。并在分析极坐标图像纹理信息几何特征的基础上,基于非局部正则化理论提出改进的Richardson-Lucy 算法,有效解决了模糊系数存在测量误差时,含噪径向模糊图像的复原问题。实验结果表明:提出的图像复原算法能很好地抑制噪声与环状振铃效应,在主观视觉与客观评价方面均能取得很好的复原效果。
2021-12-01 12:48:57 8.38MB 非局部正则化 RL算法 模糊图像复原
1
pytorch-LunarLander OpenAI Gym中针对LunarLander-v2环境的不同Deep RL算法的PyTorch实现 我们实施了3种不同的RL算法来解决LunarLander-v2环境: 模仿学习 加强 优势-演员-批评(A2C) 注意:模仿学习是在Keras中实现的,另外两种算法是在PyTorch中实现的 指示: 安装所有依赖项 克隆仓库 运行以下命令: 3.1)python imitation.py 3.2)python reinforce.py 3.3)python a2c.py
2021-10-26 18:58:14 14KB Python
1
prob_mbrl 基于概率模型的RL的Deep-PILCO及其变体的实现。 这是算法的(正在进行中)重新实现。 我们还旨在将其他基于概率模型的RL方法添加到该库中。 推荐的安装方式: 安装Miniconda 3发行版: ://conda.io/miniconda.html conda install pytorch cuda90 cudnn -c pytorch conda install tqdm 要运行mc-pilco cartpole示例,您还需要安装kusanagi库( )。 我们计划在将来消除这种依赖性。 例如,有关如何使用此库的信息,请查看notbooks文件夹。 目前,我们有一个使用BNN模型进行回归的示例,还有一个MC PILCO的示例
2021-08-27 16:03:06 905KB JupyterNotebook
1
POMDP:基于部分可观察的马尔可夫决策过程实现RL算法
1