主动学习试图在具有尽可能少标注样本的同时最大化模型的性能增益。深度学习(Deep learning, DL)需要大量标注数据,如果模型要学习如何提取高质量的特征,就需要大量的数据供应来优化大量的参数。
2021-05-11 11:42:49 1.21MB 主动学习
1
为促进居民用户柔性负荷高效参与需求响应,帮助 用户从被动角色转变为主动角色,实现需求侧最大效益。本文在智能电网环境下,根据用电设备的特性,以概率论 的角度对家电设备状态进行描述定义,基于异步深度强化 学习(asynchronous deep reinforcement learning,ADRL)进 行家庭能源管理系统调度的在线优化。学习过程采用异步 优势演员-评判家(asynchronous advantage actor-critic, A3C)方法,联合用户历史用电设备运行状态的概率分布, 通过多智能体利用CPU 多线程功能同时执行多个动作的 决策。该方法在包括光伏发电、电动汽车和居民住宅电器 设备信息的某高维数据库上进行仿真验证。最后通过不同 住宅情境下的优化决策效果对比分析可知,所提在线能耗 调度策略可用于向电力用户提供实时反馈,以实现用户用 电经济性目标。
1
压缩文件中有两个.py文件,分别为深度强化学习的交叉熵优化方法和策略优化方法的完整代码,readme文件中提供的资料中有具体的操作细节以及算法解释
2021-05-08 17:04:12 8KB 深度强化学习
1
本文研究并借鉴了深度 Q 网络的结构,借鉴其使用一个神经网络处理图像输入并计算行动价值函数,将深度学习与增强学习结合。根据路径规划问题的特殊性设计了一个全卷积神经网络,并引入注意力机制优化网络结构。其次,针对神经网络在处理多步决策、规划问题上的短板,参考价值迭代网络,在神经网络模型的基础上引入价值迭代模块。对价值迭代模块进行解构分析,提出改进的价值迭代模块,解决了引入价值迭代模块造成的误差累积问题。最后,将神经网络表征的行动价值函数分解为状态价值函数与优势函数之和,形成竞争神经网络结构,至此完成神经网络的构建。本文使用 2D 栅格环境,使用专家样本取代传统增强学习中的代理经历,以模仿学习方式加速模型训练。通过算法在最短路径规划问题上的表现衡量算法效能。
DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55 20.38MB JupyterNotebook
1
视觉推送和抓取工具箱 视觉推送和抓取(VPG)是一种训练机器人代理以学习如何计划互补的推送和抓取操作以进行操纵(例如,用于非结构化的放置和放置应用程序)的方法。 VPG直接在视觉观察(RGB-D图像)上运行,从试错中学习,快速训练,并推广到新的对象和场景。 该存储库提供PyTorch代码,用于在UR5机械臂的模拟和实际设置中通过深度强化学习来训练和测试VPG策略。 这是本文的参考实现: 通过自我监督的深度强化学习来学习推动和抓握之间的协同作用 , ,( ,( ,( ,( 2018年IEEE / RSJ国际智能机器人和系统国际会议(IROS) 熟练的机械手操作得益于非灵活(例如推
1
深度神经网络在拥有大量数据集和足够的计算资源的情况下能够取得巨大的成功。然而,他们快速学习新概念的能力相当有限。元学习是解决这一问题的一种方法,通过使网络学会如何学习。
2021-04-24 09:08:01 3.1MB 元学习 深度学习
1
完整实现A2C算法,包括实现要点、模型构建、虚拟环境交互、模型训练、信息监控等,并亲测在google colab中运行
2021-04-21 20:58:57 5.39MB PyTorch 深度强化学习 A2C 深度学习
1
严如强团队2019年文章UnsupervisedDeepTransferLearningforIntelligentFaultDiagnosis-AnOpenSourceandComparativeStudy用于智能故障诊断的无监督深度迁移学习:开放源代码和比较研究 关键词:无监督深度学习;智能故障诊断;开源研究 1.介绍 2.简要回顾 3.算法评估 4.基于UDTL的智能故障诊断应用 5.数据集 6.数据预处理和拆分 7.评估方法 8.评价结果 9.进一步讨论 10.结论 附录A:测试结果
1
LIRD:基于深度强化学习的“明智”推荐框架 电影深度强化学习推荐系统 这篇文章的重新实现:深强化学习的名单明智的建议- 原始源代码: :
2021-04-18 22:53:37 837KB 系统开源
1