搜索【深度Q学习】的结果

keras-rl：Keras的深度强化学习-源码

Keras的深度强化学习它是什么？ keras-rl在Python中实现了一些最先进的深度强化学习算法，并与深度学习库无缝集成。此外， keras-rl可与一起使用。这意味着评估和使用不同算法很容易。当然，您可以根据自己的需要扩展keras-rl 。您可以使用内置的Keras回调和指标，也可以定义自己的回调和指标。更重要的是，只需扩展一些简单的抽象类，即可轻松实现自己的环境甚至算法。文档可。包含什么？到目前为止，已实现以下算法：深度Q学习（DQN）， Double DQN 深度确定性策略梯度（DDPG）连续DQN（CDQN或NAF）交叉熵方

2021-04-17 20:32:03 882KB machine-learning theano reinforcement-learning tensorflow

1

基于深度强化学习的混合动力汽车能源管理策略.zip

基于深度强化学习的混合动力汽车能量管理策略

2021-04-16 18:01:51 5.53MB 电动汽车 深度强化学习 能量管理 机器学习

RL-Stock:用如何用深度强化学习自动炒股-源码

:chart_increasing:如何用深度强化学习自动炒股 :light_bulb:初衷最近发生的事故，受到新冠疫情的影响，股市接连下降，作为一棵小白菜兼小韭菜，竟然产生了抄底的大胆想法，拿出仅存的一点私房钱梭哈了一把。第二天，暴跌，俺加仓第三天，又跌，俺加仓第三天，又跌，俺又加仓... 一番错误操作后，结果严重不堪重负，第一次买股票就被股市一段暴打，受到了媳妇无情的嘲讽。痛定思痛，俺决定换一个思路：如何用深度强化学习来自动模拟炒股？实验验证一下能否获得收益。 :open_book:监督学习与强化学习的区别监督学习（如LSTM）可以根据各种历史数据来预测未来的股票的价格，判断股票是涨还是跌，帮助人做决策。而强化学习是机器学习的另一个分支，在决策的时候采取适当的行动（Action）使最后的奖励最大化。与监督学习预测未来的数值不同，强化学习根据输入的状态（如当日开盘价，收盘价等），输出系列动作（例如：买进，持有，卖出），从而最后的收益最大化，实现自

2021-04-11 14:03:47 4.14MB JupyterNotebook

1

记忆增强型深度强化学习研究综述

近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.

2021-04-07 09:14:10 1.25MB 记忆增强 强化学习

1

Air Dominance Through Machine Learning.pdf

【兰德公司报告】通过机器学习获得空中优势—人工智能辅助任务规划的初步探索 Air Dominance Through Machine Learning：A Preliminary Exploration of Artificial Intelligence–Assisted Mission Planning

2021-03-24 22:03:57 13.67MB 人工智能 智能规划 深度强化学习

1

基于深度迁移学习的垃圾分类系统设计与实现

设计了一种基于深度迁移学习模型,对多种常见的可回收垃圾图像进行识别分类的垃圾图像分类系统.对比了VGG16、InceptionV3、InceptionResnetV2预训练模型的性能,最优识别正确率达到了90%以上,并进一步设计了基于Flask的Web应用调用模型.

2021-03-11 23:32:31 2.47MB 深度迁移学习 垃圾分类 迁移学习

1

多粒度深度特征学习可实现强大的行人检测

2021-03-08 11:05:44 3.35MB 研究论文

1

动态网络上的增强学习到分组路由的方法：使用最短路径路由，Q学习和深度Q学习的动态网络上的分组路由仿真-源码

动态路由项目描述：为了测试动态网络上各种路由算法的性能，我们在网络上创建了一个数据包路由仿真，该仿真在一系列时间步长上进行离散更新。在整个仿真过程中，随机选择边缘以消失并在每个时间步进行恢复。另外，在整个情节中，边缘权重以正弦形式波动。在每个情节的开始，网络上都会生成许多数据包（网络负载），每个数据包都有一个随机的起始节点和目标节点。每次传送数据包时，都会在一些时间步长后初始化一个新数据包。一旦生成了一定数量的数据包并在网络上传递，该情节就结束了。然后计算平均分组传送时间和各种网络拥塞度量。该模拟要求路由器根据一种路由算法为每个数据包确定路径。特别是对于这个项目，我们探索通过Dijkstra算法的最短路径，通过Floyd-Warshall算法的最短路径，通过各种奖励函数的Q学习，以及Deep Q Learning。要求：网络X FFmpeg（用于动画制作）

2021-03-08 09:50:58 42KB Python

1

DRL_Navigation：Udacity深度强化学习课程的第一个项目-源码

DRL_Navigation Udacity深度强化学习课程的第一个项目 ## Setup环境此项目是由Anaconda开发的，建议在使用它的同时进行相同的操作。要创建新的conda环境，请运行以下conda create --name drlnd python = 3.6 出现提示时继续。 Conda应该安装所有必需的软件包。激活环境：conda activate drlnd 使用以下命令安装正确版本的pytorch： conda install pytorch=0.4.0 -c pytorch 我们正在使用的环境仅在需要单独下载时才可用。从下面的链接之一下载环境。您只需要选择与您的操作系统匹配的环境： Linux： Mac OSX： Windows（32位）： Windows（64位）：解压缩刚刚下载的环境，并将其包含的文件夹放置在与此存储库相同的目录中。

2021-03-04 08:54:05 157KB JupyterNotebook

1

个人信息

热门下载

最新下载

其他资源