只为小站
首页
域名查询
文件下载
登录
c++复现标准版的策略梯度算法内含数据集以及训练预测脚本
策略梯度(Policy Gradient, PG)方法的核心思想在于是能获得更好的回报的动作的采样概率不断提高,使获得更少回报的动作的采样概率不断降低,从而达到一个最优的策略。
2022-10-22 09:07:51
7KB
libtorch
vpg
DeepReinforcementLearning:深度RL实施。 在pytorch中实现的DQN,SAC,DDPG,TD3,PPO和
VPG
。 经过测试的环境:LunarLander-v2和Pendulum-v0-源码
使用Pytorch实现的深度RL算法 算法列表: 关于深入探讨 实验结果: 算法 离散环境:LunarLander-v2 连续环境:Pendulum-v0 DQN --
VPG
-- DDPG -- TD3 -- SAC -- PPO -- 用法: 只需直接运行文件/算法。 在我学习算法时,它们之间没有通用的结构。 不同的算法来自不同的来源。 资源: 未来的项目: 如果有时间,我将为使用RL的电梯添加一个简单的程序。 更好的图形
2021-04-26 01:35:45
391KB
algorithms
ddpg
sac
ppo
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
基于Matlab的IEEE14节点潮流计算.zip
商用密码应用与安全性评估——霍炜.pdf
quartus II13.0器件库.zip
【SystemVerilog】路科验证V2学习笔记(全600页).pdf
MATLAB车牌识别系统
MAC OS.X.10.8.iso 镜像文件
基于javaweb的网上购物系统(毕业论文+答辩PPT+开题报告+源代码)
多智能体的编队控制程序的补充(之前上传少了一个文件)
东南大学英语技术写作慕课所有答案
智能微电网中利用粒子群算法实现多目标优化(有完整数据可运行).zip
IBM.ILOG.CPLEX.Enterprise.Server.v12.10.0.Win64.rar CPLEX下载
cplex_studio129.win-x86-64.exe CPLEX 12.9直接安装可使用
银行笔试 信息科技岗部分真题
基于matlab的车牌识别系统设计
上帝之眼和拾荒者.rar
最新下载
gparted-live-1.1.0-1-amd64.iso
DirectX修复工具V4.1增强版
delphi7 RedisClient
OPENMV中文参考资料
Synergy 1.6.2 安装包 Windows+Linux.
ZKEYS公有云管理系统(大陆版)6.0.0.zip
1394 OHCI Compliant Host Controller (Legacy)驱动For_WIN7_X64位.zip
CodeMeterRuntime V6.40 版本
Effective C++ 第三版 PDF (高清,带书签,可复制)
aspose.pdf-17.8.jar
其他资源
FMC接口连接标准
哈工大秋季学期人工智能(3学分)第三个实验(不确定性推理)及报告
xwork-2.0.4.jar免费下载
玩透sed:探究sed原理.pdf
华为云FusionAccess 8.0.1 桌面云技术白皮书.docx
基于node-serialport的WEB串口通信 上位机工具
全国省、县界线shp格式矢量图(精确到县区域)
基于51单片机的智能风扇控制程序
按优先数调度算法实现处理器调度的程序
高级软件工程2017-2018期末复习答案.zip
blog.minchin.ca:位于blog.minchin.ca的鹈鹕博客的来源-源码
sqoop-1.4.7.jar
最简单的C++静态调用DLL
Newton-cotes公式(数值计算实验)
Mybase Desktop V7.2 破解注册
用Java编写的随即组卷程序
浪潮RIAD卡驱动
Rx.NET in Action【Manning】
数据库基础教程(第三版)课后答案
MagicHouse.rar
bootstrap3.2.0离线文档