DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55 20.38MB JupyterNotebook
1
视觉推送和抓取工具箱 视觉推送和抓取(VPG)是一种训练机器人代理以学习如何计划互补的推送和抓取操作以进行操纵(例如,用于非结构化的放置和放置应用程序)的方法。 VPG直接在视觉观察(RGB-D图像)上运行,从试错中学习,快速训练,并推广到新的对象和场景。 该存储库提供PyTorch代码,用于在UR5机械臂的模拟和实际设置中通过深度强化学习来训练和测试VPG策略。 这是本文的参考实现: 通过自我监督的深度强化学习来学习推动和抓握之间的协同作用 , ,( ,( ,( ,( 2018年IEEE / RSJ国际智能机器人和系统国际会议(IROS) 熟练的机械手操作得益于非灵活(例如推
1
完整实现A2C算法,包括实现要点、模型构建、虚拟环境交互、模型训练、信息监控等,并亲测在google colab中运行
2021-04-21 20:58:57 5.39MB PyTorch 深度强化学习 A2C 深度学习
1
LIRD:基于深度强化学习的“明智”推荐框架 电影深度强化学习推荐系统 这篇文章的重新实现:深强化学习的名单明智的建议- 原始源代码: :
2021-04-18 22:53:37 837KB 系统开源
1
Keras的深度强化学习 它是什么? keras-rl在Python中实现了一些最先进的深度强化学习算法,并与深度学习库无缝集成。 此外, keras-rl可与一起使用。 这意味着评估和使用不同算法很容易。 当然,您可以根据自己的需要扩展keras-rl 。 您可以使用内置的Keras回调和指标,也可以定义自己的回调和指标。 更重要的是,只需扩展一些简单的抽象类,即可轻松实现自己的环境甚至算法。 文档可。 包含什么? 到目前为止,已实现以下算法: 深度Q学习(DQN) , Double DQN 深度确定性策略梯度(DDPG) 连续DQN(CDQN或NAF) 交叉熵方
1
基于深度强化学习的混合动力汽车能量管理策略
:chart_increasing:如何用深度强化学习自动炒股 :light_bulb:初衷 最近发生的事故,受到新冠疫情的影响,股市接连下降,作为一棵小白菜兼小韭菜,竟然产生了抄底的大胆想法,拿出仅存的一点私房钱梭哈了一把。 第二天,暴跌,俺加仓 第三天,又跌,俺加仓 第三天,又跌,俺又加仓... 一番错误操作后,结果严重不堪重负,第一次买股票就被股市一段暴打,受到了媳妇无情的嘲讽。痛定思痛,俺决定换一个思路:如何用深度强化学习来自动模拟炒股?实验验证一下能否获得收益。 :open_book:监督学习与强化学习的区别 监督学习(如LSTM)可以根据各种历史数据来预测未来的股票的价格,判断股票是涨还是跌,帮助人做决策。 而强化学习是机器学习的另一个分支,在决策的时候采取适当的行动(Action)使最后的奖励最大化。与监督学习预测未来的数值不同,强化学习根据输入的状态(如当日开盘价,收盘价等),输出系列动作(例如:买进,持有,卖出),从而最后的收益最大化,实现自
2021-04-11 14:03:47 4.14MB JupyterNotebook
1
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.
2021-04-07 09:14:10 1.25MB 记忆增强 强化学习
1
【兰德公司报告】通过机器学习获得空中优势—人工智能辅助任务规划的初步探索 Air Dominance Through Machine Learning:A Preliminary Exploration of Artificial Intelligence–Assisted Mission Planning
2021-03-24 22:03:57 13.67MB 人工智能 智能规划 深度强化学习
1