基于深度学习与强化学习的声学家庭行为识别计算机探讨.docx
2021-10-08 23:11:37 125KB C语言
基于深度强化学习的量化投资策略计算机研究.docx
2021-10-08 23:11:32 205KB C语言
使用Keras-RL和Mesa进行深度强化学习 文献资料 Keras-RL: : 梅萨(Mesa): : 安装 git clone git@github.com:eescriba/mesa-keras-rl.git cd mesa-keras-rl pip install pipenv pipenv install 跑步 mesa runserver [env_run_path]
2021-10-08 22:34:39 621KB JupyterNotebook
1
资源其中包括A3C ,DQN ,PPO,概率图论及Sutton强化学习导论的教材等,具有很好的学习价值
2021-10-08 18:49:53 34.01MB Reinforcement le
1
多点路径规划指标机器人强化学习 增强学习已成为研究和研究的热门话题,该领域的许多领域都未曾动过。 这些领域之一是在物理机器人上实施强化学习算法。 我探索了在物理定制3D打印机器人Benny和Bunny上实现RL算法的过程,从A到B。这个项目是我本科生最后一年学习自学选修课的一部分,目的是学习强化学习(RL)的基础知识。 最初,编码直接发生在物理机器人上,但是在项目进行到一半时,很明显项目的算法和硬件需要去耦; 很难确定问题出在硬件还是RL算法中。 在RL算法中进行的仿真测试表明,在较小的状态空间(<= 100个状态)中,结果令人鼓舞,但是一旦问题扩展到包含400个状态的远期奖励,则对于所探索的RL算法中的任何一个都无法收敛。 从仿真结果来看,在硬件上实现可行之前,需要在仿真中探索更强大的算法。 模拟 所有的代码都是用C ++编写的,没有框架或外部库。 这样做有两个原因: 我想要的代码既可以用于模拟训练,也可以用于完全在机器人上完成的训练,而无需进行数据传输。 之所以需要这种可移植性,是因为机器人使用的CPU和内存有限的微控制器,而增加数据传输将为系统增加更多的复杂性。 使用Tensor
2021-10-08 18:25:23 440KB 系统开源
1
魔方 学习如何使用强化学习来解决魔方 状态 模型正在学习一些东西。 我尝试调整模型的结构,但无法达到低于18的损失,这似乎很高。 仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。 下一步: 在get_td_value_examples和贪婪求解器中批量调用模型。 实施A *。 进一步调查模型的行为: 比损失多的指标(例如平均L1误差) 通过标签对度量进行切片:我们是否更擅长将立方体距已解决状态更近或更远? 以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。 实现既有价值头又有政策头的模型 实施MCTS。 参考 Agostinelli,F.,McAleer,S.,Shmakov,A。等。 通过深度强化学习和搜索解决魔方。 Nat Mach Intell 1,356–363(2019)。 DeepCubeA。 DNN使用TD(0)学习值函数 更复杂的网
2021-10-08 16:34:28 95KB JupyterNotebook
1
针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。
2021-10-06 19:58:34 1.39MB 移动边缘计算 计算卸载 任务调度
1
基于深度强化学习的机械臂抓取策略研究_刘阳.caj
2021-10-06 12:06:53 3.11MB 强化学习 机器人
1
此代码使用迷宫示例演示了强化学习 (Q-learning) 算法,其中机器人必须仅通过向左、向右、向上和向下方向移动才能到达目的地。 在每一步,根据机器人动作的结果,它会被教导和重新教导它是否是一个好的动作,最终整个过程一次又一次地重复,直到它到达目的地。 此时,该过程将再次开始,以便可以验证所学的内容,并且可以忘记在第一遍期间所做的不必要的移动等等。 这是一个很好的教程示例,适用于必须在旅途中进行学习的情况,即不使用训练示例。 可用于游戏中学习和提升AI算法与人类玩家等多种场景的竞争能力。 在小迷宫上收敛会很快,而在大迷宫上收敛可能需要一些时间。 您可以通过修改代码来提高收敛速度,使 Q-learning 高效。 有四个m文件QLearning_Maze_Walk.m - 演示 Q-learning 算法在选定迷宫上的工作Random_Maze_Walk.m - 演示用于比较的随机选
2021-10-04 22:11:13 10KB matlab
1
Optragen 用于将最优控制问题解析为非线性规划问题的 Matlab 工具箱。 此更新版本适用于 fmincon,不需要 SNOPT。 有几个示例可以帮助您入门。 手册需要更新。
2021-10-04 17:50:21 1.75MB MATLAB
1