只为小站
首页
域名查询
文件下载
登录
reinforcement-learning:关于
强化学习
的笔记和例子-源码
概述 这是关于
强化学习
的注释和示例的集合。 这些内容基于Richard S. Sutton和Andrew G. Bartow撰写的《》第二版。 内容 该存储库中包含以下注释和示例: 第2章-多臂强盗 第三章-有限马尔可夫决策过程 第4章-动态编程 第5章-蒙特卡洛方法 笔记 二十一点 解决二十一点 二十一点状态值的非政策估计 无限方差 赛马场 第六章-时差学习 笔记 随机游走 批量更新下的随机游走 风之网格世界 悬崖漫步
2021-10-25 19:20:27
5.48MB
F#
1
Hands-On-Reinforcement-Learning-with-Java:Packt发行的《 Java上的动手
强化学习
》(视频)-源码
用Java进行动手
强化学习
[视频] 这是出版的的代码库。 它包含从头到尾完成视频课程所需的所有支持项目文件。 关于视频课程 数据科学和机器学习世界中存在无法通过监督学习或无监督学习解决的问题。 如果标准ML工程师的工具包不够用,您可以学习和使用一种新方法:
强化学习
。 本课程重点介绍Java生态系统中的关键
强化学习
技术和算法。 每个部分都涵盖了RL概念并解决了实际问题。 您将学习解决具有挑战性的问题,例如创建机器人,决策,随机悬崖行走等等。 然后,您还将涵盖深度
强化学习
,并学习如何在RL算法中使用DeepLearning4J添加深度神经网络。 在本课程结束时,您将准备解决
强化学习
问题,并利用最强大的Java DL库创建
强化学习
算法。 您将学到什么 利用ND4J和RL4J进行
强化学习
使用马尔可夫决策过程解决购物车极点问题 使用QLConfiguration来配置您的
强化学习
算法 利用动
2021-10-25 19:14:42
21.71MB
Java
1
基于
强化学习
技术的智能派单模型.zip
设计了一种基于马尔可夫决策过程 (MDP) 的智能派单方法,通过将派单建模成为一个序列决策 (Sequential Decision Making) 问题,结合了
强化学习
和组合优化,能在即时完成派单决策的条件下,基于对全天供需、出行行为的预测和归纳,达到优化一天之内司机整体效率的效果,能在确保乘客出行体验的同时明显提升司机的收入
2021-10-25 19:10:14
7.66MB
强化学习
深度学习
1
Traffic-Light-Reinforcement-Learning-using-FLOW-SUMO:该项目旨在通过
强化学习
来改善交通流量,以培训和观察路网-源码
红绿灯交通学习 需要做的事情: 安装FLOW框架-https: 安装SUMO- //sumo.dlr.de/docs/Downloads.php或遵循FLOW安装 然后,将custom_traffic_light_env.py放入envs文件夹(/ flow / flow / envs)下的FLOW文件夹中。 通过添加以下内容来修改envs文件夹的init.py: 从flow.envs.custom_traffic_light_env导入CustomTrafficLightEnv, CustomTrafficLightPOEnv,CustomTrafficLightTestEnv,CustomTrafficLightBenchmarkEnv 全\u90e8='CustomTrafficLightEnv','CustomTrafficLightPOEnv','CustomTrafficLig
2021-10-25 17:23:36
436KB
Python
1
强化学习
C++模拟.zip
简单的
强化学习
的C++模拟。
强化学习
是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题, 即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励,
强化学习
的目标就是获得最多的累计奖励。 简单来说,在结点0下有结点1和结点2两个分支,以此类推,在结点1,2和下依旧有两个结点3,4和5,6;总共有4层结点, 总共15个结点,而我们的目标是最后一个结点,也就是对走到最会一个结点的运行状态进行奖励。
2021-10-25 16:29:28
2KB
强化学习
C++
机器学习
1
Python-MAgent一个多Agent的
强化学习
平台
MAgent是一个多Agent
强化学习
的研究平台。 与之前的研究平台不同,这些平台专注于使用单个代理或少数代理进行
强化学习
研究,而MAgent旨在支持从数百到数百万代理扩展的
强化学习
研究。
2021-10-24 23:36:02
9.55MB
Python开发-机器学习
1
DeepRL_PyTorch:用于研究的深度
强化学习
代码。 当前,仅存在算法代码:DQN,C51,QR-DQN,IQN和QUOTA-源码
深度
强化学习
代码 当前,这里只有用于分布增强学习的代码。 C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。 随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。 依赖关系: pytorch(> = 1.0.0) 体育馆(= 0.10.9) 麻木 matplotlib 用法: 为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。 当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入: python 3_ iqn . py Breakout 在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。 训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。 参考文献: 通过深度
强化学习
(DQN)进行人为控制[] []
强化学习
的分布式视角(C51)[] []
2021-10-24 22:54:36
33KB
algorithm
reinforcement-learning
algorithms
pytorch
1
强化学习
总结PPT学习
强化学习
(RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
2021-10-24 15:54:59
3.66MB
强化学习
1
强化学习
入门经典论文(DQN相关).rar
强化学习
必读论文
2021-10-23 22:42:26
13.6MB
DQN
1
RSwarm:
强化学习
的猎物模型-源码
温暖
强化学习
的猎物模型 使用TensorFlow的捕食者-被捕食者系统的简单Q学习演示
2021-10-22 18:45:55
26KB
python
machine-learning
tensorflow
python3
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
JPEG的Matlab实现
matlab时频分析工具箱+安装方法+函数说明+最新版tftb.
知网情感词典(HOWNET)
android studio课程设计作业PPT+设计文档+可运行源代码+设计思路
粒子群算法优化3-5-3多项式工业机器人时间最优轨迹规划算法matlab代码
【SystemVerilog】路科验证V2学习笔记(全600页).pdf
芯片验证漫游指南以及源代码.zip
Android大作业——网上购物APP(一定是你想要的)
2019西门子杯六部十层电梯群控参考程序.zip
20200318附加-2019年电赛综合测评方案详细计算过程(pdf版本,有朋友反映word版本乱码,特意转为pdf)
中小型企业网络建设.pkt
YOLOv5 人脸口罩图片数据集
android开发期末大作业.zip
拾荒者扫描器.zip
雷达信号处理仿真程序(MTI,MTD等)
最新下载
面向对象分析与设计习题及部分答案
2024年一线大厂Java面试题及详细讲解(含代码示例)
零基础DSP实战TMS320F28035:第十节,DSP之CLA内核应用实战.zip
CLA实现无刷电机控制(可以运行的CODE)
STM32G031C8T6无线温湿度开源项目.rar
ASSA和STW脚本代码解密绿色免费版
MFC西南交大计图实验-2D绘图工具设计
基于FPGA的振动信号采集卡的研究与设计-论文
抓包工具MessageAnalyzer
基于蚁群算法的旅行商问题(TSP)求解(matlab实现)
其他资源
UWTR烧录软件-2.09.10
MySQL绿色精简版(5.1|5.5|5.7)三合一
Deep Learning(深度学习)学习笔记整理系列pdf
黑苹果声音放大软件SoundBoosterLite
DS_Store文件泄漏利用python脚本
涡流对铁基纳米复合材料高频导磁率的影响
皮尔兹.rar电气设备选型资料大全 (适合刚刚入行的电气工程师对设备进行选型规划)详解 报价
大数据私房菜_flink详解(2021)
天津工业大学《自动控制原理》课后习题解答.pdf
【ssm项目源码】实验室管理系统.zip
python基础 函数,闭包,面向对象
jQuery图片横向滚动抽奖代码.zip
校园一卡通数据库设计
k8s + docker
BTL5-T1_V10.02
发送ARP请求
机械系统动力学分析及adams应用教程 word版
KEITHLEY 6485 数字万用表Labview控制
基于内核的Linux键盘记录器