深度强化学习在通信和网络中的应用:一项调查
2021-03-02 14:05:36 3.12MB 研究论文
1
责任 RLiable是用于增强学习代理的快速超参数调整的实验并行化框架。 它旨在满足对可分发的Spark / TF兼容模型的需求,该模型允许以简单reliable方式扩展实验。 执行 先决条件: 版本 Python > = 3.6 火花 3.0.1 Hadoop 2.7 Java 1.8 Scala 2.11 注意: scripts/install_spark_hpc.sh提供了Linux(基于Debian)安装脚本。 安装要求 创建virtualenv并安装Python依赖项 virtualenv -p $( which python3 ) env source env/bin/activate pip install -r requirements.txt pip install -r dqn-requirements.txt 进行实验 当前的优化算法基于配置标志opt
2021-03-02 10:05:28 39KB Python
1
机器学习-强化学习-汤普森采样 强化学习: 汤普森采样: 我们需要在有效的勘探与开发之间找到适当的平衡。 与UCB算法不同,汤普森采样算法是一种概率算法。 该算法具有代表我们对世界的感知以及我们认为这些机器中的每台机器的实际预期收益可能位于的分布。 与UCB相比,Thomas采样的优点之一是它可以适应延迟的反馈。 我将使用与UCB算法相同的数据集。 与UCB算法相比,汤普森采样算法产生了更好的结果(能够在尽可能少的回合中确定最佳广告)。 该算法的工作原理如下: 在第n轮中,我们为每个广告i考虑两个数字: N1(n):-直到第n轮我获得奖励1的广告的次数, N0(n):-广告获得奖励​​0到第n轮的次数。 对于每个广告i,我们从以下分布中随机抽取:0i(n)= B(N1(n)+1,N0(n)+1) 我们选择最高0i(n)的广告
2021-03-01 19:07:06 27KB JupyterNotebook
1
AI量化实验室,专注将前沿人工智能技术(深度学习/强化学习/知识图谱)应用于金融量化投资
2021-02-28 19:08:15 198KB AI
1
撒旦撒打算打算的阿达阿三
2021-02-28 18:01:36 74KB 强化学习
1
这里收集了进100题Linux、C、网络编程、常见算法、单片机等方面的常见面试题,适用于嵌入式开发工程师学习以及面试。
2021-02-27 16:05:17 3.21MB 强化学习 面试 经验分享 linux
matlab三轴姿态自稳定强化学习程序压缩包
2021-02-27 15:12:52 34KB matlab 强化学习 航天器姿态控制
1
由于实验室要求每周PPT分享汇报,在这一过程中,需要花费时间去整理 强化学习,深度学习,Actor-critic基本知识点,耗时较长,因此将相关PPT上传,供有需要的游客查阅。
2021-02-26 20:05:54 2.6MB 深度学习 强化学习 Actor-critic
1
论文、报告形式阐述此算法,近2w字,非常详细、格式标准、可编辑。