PyTorch中用于图像分类的深度主动学习工具包 这是用编写的用于图像分类的深度主动学习的代码库。 我想强调的是,该工具包只是最初由Prateek Munjal等人通过电子邮件与我共享的工具包的轻量级衍生产品。 论文“使用神经网络实现鲁棒和可再现的主动学习”的作者,请。 介绍 该存储库的目标是为深度主动学习提供一个简单而灵活的代码库。 它旨在支持快速实施和评估研究思路。 我们还提供了大量基准结果(即将推出)。 该代码库当前仅支持单机单gpu培训。 我们将很快将其扩展到由PyTorch分布式软件包提供支持的单机多GPU培训。 使用工具箱 有关简要的安装说明和基本用法示例,请参见 。 支持的主动学习方法 不确定性抽样 最不信任 最低保证金 最大熵 深度贝叶斯主动学习(DBAL)[1] 贝叶斯主动学习的分歧(BALD)[1] 多样性抽样 核心组(贪婪)[2] 变式对抗主动学习(VAAL)
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
本文来自于csdn,这个指南主要基于DennyBritz所做的工作,他深入地探索了机器人开发中深度学习技术的利用。文章中包含代码片段和Github仓,好好利用!在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(DeepLearning)应用到聊天机器人(Chatbots)方面的最好的资料。时不时地我会发现一个出色的资源,因此我很快就开始把这些资源编制成列表。不久,我就发现自己开始与bot开发人员和bot社区的其他人共享这份清单以及一些非常有用的文章了。在这个过程中,我的名单变成了一个指南,经过一些好友的敦促和鼓励,我决定和大家分享这个指南,或许是一个精简的版本-由
1
最小二乘法是统计中估计各种数据之间相关性的最基本方法之一。 另一方面,深度学习是人工智能的心脏,它是一种基于最小二乘的学习方法。 在本文中,我们从深度学习的角度重新考虑了最小二乘法,并在非常简单的设置下彻底进行了梯度下降序列的计算。 根据学习率的值(深度学习的必要参数),统计学和深度学习的最小二乘法显示出一个有趣的差异。
2021-11-28 17:24:45 539KB 最小二乘法 统计 深度学习 学习率
1
针对蜂窝网资源分配多目标优化问题,提出了一种基于深度强化学习的蜂窝网资源分配算法。首先构建深度神经网络(DNN),优化蜂窝系统的传输速率,完成算法的前向传输过程;然后将能量效率作为奖惩值,采用Q-learning机制来构建误差函数,利用梯度下降法来训练DNN的权值,完成算法的反向训练过程。仿真结果表明,所提出的算法可以自主设置资源分配方案的偏重程度,收敛速度快,在传输速率和系统能耗的优化方面明显优于其他算法。
1
[PYTORCH]玩Flappy Bird的深度Q学习 介绍 这是我的python源代码,用于训练代理玩飞扬的小鸟。 可以将其视为强化学习应用程序的一个非常基本的示例。 结果 如何使用我的代码 使用我的代码,您可以: 通过运行python train.py从头开始训练模型 通过运行python test.py测试您训练有素的模型 训练有素的模特 您可以在trained_models / flappy_bird中找到我训练有素的模型 要求 python 3.6 pygame cv2 火炬 麻木
2021-11-25 22:31:34 26.18MB reinforcement-learning pygame pytorch deep-q-network
1
强化学习的泛化性一直是个被人诟病的问题。最近来自UCL& UC Berkeley的研究人员对《深度强化学习》做综述,阐述了当前深度学习强化学习的泛化性工作,进行了分类和讨论。
2021-11-24 13:07:07 6.08MB 深度强化学习 泛化性
1
StartCraft II强化学习示例 该示例程序建立在 pysc2(Deepmind)[ ] 基线(OpenAI)[ ] s2client-proto(暴雪)[ ] Tensorflow 1.3(谷歌)[ ] 目前的例子 小地图 使用Deep Q Network收集矿物碎片 快速入门指南 1.获取PySC2 聚酰亚胺 获取PySC2的最简单方法是使用pip: $ pip install git+https://github.com/deepmind/pysc2 另外,您必须安装baselines库。 $ pip install git+https://github.com
1