搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

基于深度学习与强化学习的声学家庭行为识别计算机探讨.docx

2021-10-08 23:11:37 125KB C语言

基于深度强化学习的量化投资策略计算机研究.docx

2021-10-08 23:11:32 205KB C语言

mesa-keras-rl：使用Python3，Keras-RL（深度强化学习）和Mesa（基于代理的建模）进行智能移动模拟-源码

使用Keras-RL和Mesa进行深度强化学习文献资料 Keras-RL：：梅萨（Mesa）：：安装 git clone git@github.com:eescriba/mesa-keras-rl.git cd mesa-keras-rl pip install pipenv pipenv install 跑步 mesa runserver [env_run_path]

2021-10-08 22:34:39 621KB JupyterNotebook

1

强化学习算法资料.7z

资源其中包括A3C ,DQN ,PPO,概率图论及Sutton强化学习导论的教材等，具有很好的学习价值

2021-10-08 18:49:53 34.01MB Reinforcement le

1

多点路径规划matlab代码-ReinforcmentLearningRobot:我在MSE本科学位课程最后一个学期的自选选修课的强化学习路径

多点路径规划指标机器人强化学习增强学习已成为研究和研究的热门话题，该领域的许多领域都未曾动过。这些领域之一是在物理机器人上实施强化学习算法。我探索了在物理定制3D打印机器人Benny和Bunny上实现RL算法的过程，从A到B。这个项目是我本科生最后一年学习自学选修课的一部分，目的是学习强化学习（RL）的基础知识。最初，编码直接发生在物理机器人上，但是在项目进行到一半时，很明显项目的算法和硬件需要去耦；很难确定问题出在硬件还是RL算法中。在RL算法中进行的仿真测试表明，在较小的状态空间（<= 100个状态）中，结果令人鼓舞，但是一旦问题扩展到包含400个状态的远期奖励，则对于所探索的RL算法中的任何一个都无法收敛。从仿真结果来看，在硬件上实现可行之前，需要在仿真中探索更强大的算法。模拟所有的代码都是用C ++编写的，没有框架或外部库。这样做有两个原因：我想要的代码既可以用于模拟训练，也可以用于完全在机器人上完成的训练，而无需进行数据传输。之所以需要这种可移植性，是因为机器人使用的CPU和内存有限的微控制器，而增加数据传输将为系统增加更多的复杂性。使用Tensor

2021-10-08 18:25:23 440KB 系统开源

1

rubik：学习如何使用强化学习来解决魔方-源码

魔方学习如何使用强化学习来解决魔方状态模型正在学习一些东西。我尝试调整模型的结构，但无法达到低于18的损失，这似乎很高。仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。下一步：在get_td_value_examples和贪婪求解器中批量调用模型。实施A *。进一步调查模型的行为：比损失多的指标（例如平均L1误差）通过标签对度量进行切片：我们是否更擅长将立方体距已解决状态更近或更远？以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。实现既有价值头又有政策头的模型实施MCTS。参考 Agostinelli，F.，McAleer，S.，Shmakov，A。等。通过深度强化学习和搜索解决魔方。 Nat Mach Intell 1，356–363（2019）。 DeepCubeA。 DNN使用TD（0）学习值函数更复杂的网

2021-10-08 16:34:28 95KB JupyterNotebook

1

移动边缘计算中基于深度强化学习的计算卸载调度方法

针对移动边缘计算中具有依赖关系的任务的卸载决策问题，提出一种基于深度强化学习的任务卸载调度方法，以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程，其调度策略由所提出的序列到序列深度神经网络表示，并通过近端策略优化（proximal policy optimization）方法进行训练。仿真实验表明，所提出的算法具有良好的收敛能力，并且在不同环境下的表现均优于所对比的六个基线算法，证明了该方法的有效性和可靠性。

2021-10-06 19:58:34 1.39MB 移动边缘计算 计算卸载 任务调度

1

基于深度强化学习的机械臂抓取策略研究_刘阳.caj

2021-10-06 12:06:53 3.11MB 强化学习 机器人

1

强化学习（Q学习）：演示使用迷宫的强化学习（Q学习）算法-matlab开发

此代码使用迷宫示例演示了强化学习 (Q-learning) 算法，其中机器人必须仅通过向左、向右、向上和向下方向移动才能到达目的地。在每一步，根据机器人动作的结果，它会被教导和重新教导它是否是一个好的动作，最终整个过程一次又一次地重复，直到它到达目的地。此时，该过程将再次开始，以便可以验证所学的内容，并且可以忘记在第一遍期间所做的不必要的移动等等。这是一个很好的教程示例，适用于必须在旅途中进行学习的情况，即不使用训练示例。可用于游戏中学习和提升AI算法与人类玩家等多种场景的竞争能力。在小迷宫上收敛会很快，而在大迷宫上收敛可能需要一些时间。您可以通过修改代码来提高收敛速度，使 Q-learning 高效。有四个m文件QLearning_Maze_Walk.m - 演示 Q-learning 算法在选定迷宫上的工作Random_Maze_Walk.m - 演示用于比较的随机选

2021-10-04 22:11:13 10KB matlab

1

Optragen:将最优控制问题解析为非线性规划问题的Matlab工具箱-源码

Optragen 用于将最优控制问题解析为非线性规划问题的 Matlab 工具箱。此更新版本适用于 fmincon，不需要 SNOPT。有几个示例可以帮助您入门。手册需要更新。

2021-10-04 17:50:21 1.75MB MATLAB

1

个人信息

热门下载

最新下载

其他资源