搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

深度强化学习Q-Learning在协作认知无线电网络中的应用+含代码操作演示视频

深度强化学习Q-Learning在协作认知无线电网络中的应用+含代码操作演示视频运行注意事项：使用matlab2021a或者更高版本测试，运行里面的Runme.m文件，不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。具体可观看提供的操作录像视频跟着操作。

2022-05-19 12:05:29 823KB 网络 深度强化学习 Q-Learning 协作认知无线电

强化学习matlab源代码

强化学习matlab源代码很少见的源代码，详细介绍Q学习的编程过程。

2022-05-18 20:38:55 2KB 强化学习 matlab 源代码

1

深度强化学习对比,对比了DDPG,PG以及TD3三种方法+含代码操作演示视频

深度强化学习对比,对比了DDPG,PG以及TD3三种方法+含代码操作演示视频运行注意事项：使用matlab2021a或者更高版本测试，运行里面的Runme.m文件，不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。具体可观看提供的操作录像视频跟着操作。

2022-05-18 12:06:12 822KB 源码软件 深度强化学习 DDPG PG

基于深度强化学习的差分驱动移动机器人行驶控制matlab仿真+含代码操作演示视频

基于深度强化学习的差分驱动移动机器人行驶控制matlab仿真+含代码操作演示视频运行注意事项：使用matlab2021a或者更高版本测试，运行里面的Runme.m文件，不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。具体可观看提供的操作录像视频跟着操作。

2022-05-17 12:06:11 100.34MB 深度强化学习 行驶控制

深度强化学习基础知识思维导图

思维导图根据王树森老师课件整理。主要包括：强化学习基本概念基本方法（Value-Based、Policy-Based、Actor-Critic）策略学习（Reinforce with baseline、A2C）价值学习（Sarsa、Q-Learning（DQN））连续动作控制（DPG、DDPG）包含上述各种基本算法的原理及公式推导

2022-05-16 11:05:40 24MB 机器学习 深度学习 强化学习

1

play-daxigua-using-Re强化学习：使用强化学习DQN算法，训练AI模型来玩合成大西瓜游戏，提供Keras版本和PARL（paddle）版本

2022-05-15 19:08:37 4KB

1

最新中文深度强化学习综述文章，利于入门学习者理解（兼论计算机围棋的发展）

这是几篇最新中文深度强化学习综述。综述了深度强化学习的发展历程, 兼论计算机围棋的历史, 阐述了3类主要的深度强化学习方法，包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习；其次对深度强化学习领域的一些前沿研究方向进行了综述，包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等．最后总结了深度强化学习在若干领域的成功应用和未来发展趋势。本文是中文深度强化学习综述，更利于入门学习者理解。

2022-05-15 18:59:29 3.77MB 深度强化学习

1

同步发电机励磁系统的最优控制仿真 (2011年)

在Simulink软件平台上，以单机．无穷大电力系统为模型，在系统发生阶跃干扰和短路故障两种情况下，分别采用最优控制和PID+PSS控制两种励磁控制方法进行仿真比较研究，仿真结果表明两种励磁控制方法均能提高电力系统暂态稳定性，但最优励磁控制效果更佳．

2022-05-15 08:06:29 264KB 自然科学 论文

1

《基于强化学习的电商搜索排序算法及在京东的实践.pdf》

2022-05-14 19:06:50 147.41MB 排序算法 算法 搜索算法 推荐算法

CS294_homework:我对伯克利的CS294（深度强化学习）家庭作业的解决方案

CS 294-112作业（2017年秋季提供）这是我为做作业的github（于2017年秋季提供）。我远程讲授了这门课程（使用讲义和视频），并实施了作业的编码部分。以下是我为每个作业分配的内容简介。免责声明：此代码仅用于教育目的。参加本课程当前迭代的学生应避免复制此代码，因为这会破坏学术诚信并妨碍他们自己的教育。依存关系 Gym 0.9.5用于作业3。请注意，在本课程中，其中一些依赖项尚未发布。此外，已修改了入门代码，以反映OpenAI Gym文档中的更改。作业1 到目前为止，该课程涵盖了更基本的监督学习。我实现了BC（行为克隆）和DAgger（数据集聚合），这（略有改善）了结果。我还尝试了各种超参数。作业2 我实现了策略梯度算法，并在各种环境下进行了一些测试。我玩了超参数，发现我的实现使代理的奖励收敛到理论值。我还实施了GAE（广义优势估算）并比

2022-05-14 14:23:19 2.08MB JupyterNotebook

1

个人信息

热门下载

最新下载

其他资源