只为小站
首页
域名查询
文件下载
登录
reinforcement-learning:单智能体和多智能体
强化学习算法
的实现。 的MATLAB-源码
强化学习 作为我的论文的最后部分,“协作多智能体学习的方法和实现”,涉及从单一智能体到多智能体的RL研究,以及协作和协作多智能体学习的最新技术。的算法和实现,在MATLAB中完成了某些RL方法的实现。 论文论文也被上传,其中包含参考文献。 单人强化学习 动态编程 蒙特卡洛方法 时差学习 线性函数逼近 深度Q网络 具有线性函数逼近的策略梯度 多智能体强化学习 集中式Q学习 滞后Q学习 多代理演员批评
2021-05-22 13:16:32
4.39MB
MATLAB
1
深度
强化学习算法
与应用研究现状综述
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度
强化学习算法
,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。
2021-05-21 15:18:32
2.92MB
深度强化学习
研究综述
1
DeepReinforcementLearning-DDPG-for-RoboticsControl:这是名为深度确定性策略梯度(DDPG)的深度
强化学习算法
的实现,以训练4自由度机械臂达到移动目标。 动作空间是连续的,学习的特工为机器人输出扭矩以移动到特定目标位置-源码
DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度
强化学习算法
的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55
20.38MB
JupyterNotebook
1
imitation_learning:PyTorch实现的一些
强化学习算法
:优势演员评论(A2C),近距离策略优化(PPO),V-MPO,行为克隆(BC)。 将添加更多算法-源码
模仿学习 此仓库包含一些
强化学习算法
的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法仅在开始时用于培训“专家”。 但是,PPO实施(及其技巧)似乎比我预期的花费了更多时间。 结果,现在大多数代码与PPO有关,但是我仍然对模仿学习感兴趣,并打算添加一些相关算法。 当前功能 目前,此仓库包含一些无模型的基于策略的算法实现:A2C,PPO,V-MPO和BC。 每种算法都支持离散(分类,伯努利,GumbelSoftmax)和连续(贝塔,正态,tanh(正态))策略分布以及矢量或图像观察环境。 Beta和tanh(Normal)在我的实验中效果最好(在BipedalWalker和Huma
2021-02-02 16:36:47
11.42MB
algorithm
reinforcement-learning
deep-learning
deep-reinforcement-learning
1
强化学习matlab代码
强化学习算法
,实现强化学习对网络资源的分配,目的是频谱利用最大化
2019-12-21 19:24:49
6KB
强化学习算法
1
Reinforcement Learning-An Introduction by Sutton R S,Barto A G
强化学习算法
的入门资料,有利于大家学习
强化学习算法
2019-12-21 18:49:27
5.45MB
强化学习算法
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
CPLEX12.8学术版安装包:cplex_studio128.win-x86-64.exe
Academic+Phrasebank+2021+Edition+_中英文对照.pdf
SSM外文文献和翻译(毕设论文精品).doc
大唐杯资料+题库(移动通信)
基于Matlab的PI/4 DQPSK的调制解调源代吗
IBM.ILOG.CPLEX.Enterprise.Server.v12.10.0.Win64.rar CPLEX下载
CNN卷积神经网络Matlab实现
Spring相关的外文文献和翻译(毕设论文必备)
Monet智能交通场景应用
PowerBI视觉对象共计271组,更新日期2021.01.20日.zip
MTALAB NSGA2算法
copula程序及算法.zip
刚萨雷斯《数字图像处理》第四版答案.pdf
IEEE33节点配电网Simulink模型.rar
全国河流水文站坐标.xls
最新下载
北航研究生随机过程处理期末试卷
傻瓜式解压unitypackage,不依赖Unity和Python,支持批量解压unitypackage包
ad5696.rar
sasl-0.2.1-cp36-cp36m-win_amd64.whl
TPS54160加共模电感实现+-15V双输出电源AD设计硬件原理PCB+封装库.zip
PRTG Network Monitor 17.3.33.2753.rar
华为USG6000V500R001C30SPC100.bin,V1升级V5过渡包
3KW工业变频器解决方案
医院核心业务系统密码应用建设方案(2023版).pdf
微信小程序开发合同签订.docx
其他资源
连接Hive相关Jar包(DBeaver和JDBC均可使用)
java贪吃蛇源代码 带详细注释的撒~~
王者荣耀全英雄全皮肤模型
线程实现的睡觉的理发师问题
《Visual C++ 6.0 程序员指南》完美带书签中文版
C++ primer 5th edition mobi(第五版kindle)
简明微波讲义梁昌洪
Axure后台管理精美模板下载
PDF文件转各种基本格式图片
Open MV色彩识别工程训练大赛识别RGB靶环颜色
139网站可用性测试报告.pdf
.vimrc 代码配置
2008年4月高等教育自学考试全国统一命题考试计算机组成原理试卷及答案.doc
MS-700必过考试真题.docx
【Java项目源码】坚果销售系统.zip
文本笑话数据库2w多条数据,mysql直接导入即可,希望可以帮到你
基于D3D的魔方小程序
一个linux下C实现的线程池源码
智能灭火小车程序
Kinect v1驱动
Unity TouchScriptNGUI-master
基于MATLAB的简单VRP问题优化和仿真.rar