DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55 20.38MB JupyterNotebook
1
机器学习
2021-04-29 01:30:56 743.93MB 机器学习
1
为了提高混合连接的混合预编码的频谱效率,首先利用连续干扰消除(SIC)的原理得到理想条件下的最优混合预编码矩阵,然后利用梯度下降理论将最优混合预编码矩阵分解为数字预编码矩阵和模拟预编码矩阵,最后考虑模拟预编码矩阵的恒模约束条件,并以最大化频谱效率为目标利用交替最小化方法优化模拟和数字预编码矩阵。所提出的混合预编码设计算法基于混合连接结构,因而能量效率远优于部分连接的和全连接的混合预编码。同时,该算法不会增加混合连接的混合预编码的硬件复杂度且只少量增加计算量。仿真结果表明,该算法能提升混合连接的混合预编码的频谱效率,特别是当射频(RF)链路数大于数据流数时,频谱效率的提升更加显著。由于分块不需要满足正交性,该算法比现有混合连接的混合预编码更适合实际应用。
1
常用的数值计算C代码,包括共轭梯度法、单纯形法、数值积分、最小二乘、最速下降法等。
1
在梯度域的图像直方图增强,本文主要是灰度图像的代码
2021-04-25 17:12:42 2KB 梯度 增强
1
梯度下降PPT,从优化算法的发展历史来看梯度下降及其变体在机器学习中的作用,从最基础的优化讲起,逐渐深入,最后以简单的例子区分梯度下降家族各个成员。
2021-04-24 20:17:07 3.8MB 机器学习 优化算法
1
BB方法和梯度下降法的Python实现及比较
2021-04-24 19:06:58 10.47MB 最优化 梯度下降法
1
联邦学习,随机梯度下降
2021-04-24 09:07:59 1.7MB 随机梯度下降 联邦学习
1