CLIP图像分类 使用 from classify import load , classify filename = "/content/input.jpg" load_categories = "imagenet" print ( "loading categories" ) load ( load_categories ) print ( "classifying" ) print ( classify ( filename )) load load ( "imagenet" ) #imagenet categories load ( "pokemon" ) #loads a list of 721 pokemon names as categories load ( "dog vs cat" ) #dog and cat as categories load ( "words i
1
带文本生成器的GPT2-Pytorch 更好的语言模型及其含义 我们的模型称为GPT-2(是的继承者),仅经过培训即可预测40GB的互联网文本中的下一个单词。 由于我们担心该技术的恶意应用,因此我们不会发布经过训练的模型。 作为负责任公开的一项实验,我们将发布一个供研究人员进行实验的以及一份。 来自 该存储库是有关Pytorch中带有压缩代码的文本生成器的简单实现GPT-2 原始曲目是 。 您也可以阅读有关gpt-2的论文, 。 为了理解更详细的概念,我建议您阅读有关变压器模型的论文。 我在Pytorch中实现了GPT-2的良好实现, ,您可以在havingface存储库中看到更多详细的实现。 变形金刚(自我关注)论文:只 OpenAi-GPT的第一篇论文: 请参阅有关GPT-2和Paper的 快速开始 在Pytorch中下载GPT2预训练模型,该模型已经完成了face / pytorch-pretrained-BERT的制作! (感谢分享!这有助于我将tensorflow(ckpt)文件传输到Pytorch模型的问题!) $ git clone https://g
1
Breakout-RL:使用带有CNN的DQN解决OpenAI Gym Env突破
2022-02-24 16:30:50 5KB JupyterNotebook
1
DRQN-张量流 使用Tensorflow,openai / gym和openai / retro进行深度递归Q学习 该存储库包含用于在 Atari和环境上训练DQN或DRQN的代码。 请注意,到目前为止,在Retro环境中的训练都是完全实验性的,必须包装这些环境以将动作空间减少到每个游戏所有动作的更合理的子空间。 当前实现的包装仅对SEGA Sonic环境有意义。 安装 您可以通过发出以下命令来安装所有依赖项: pip install -r requirements.txt 这将在没有GPU支持的情况下安装Tensorflow。 但是,我强烈建议使用带有GPU支持的Tensorflow,否则培训将花费很长时间。 有关此主题的更多信息,请参见 。 为了运行复古环境,您必须收集要玩的游戏的rom并将其导入: : 跑步 您可以通过以下方式开始培训: python main.py --
2022-02-24 09:40:53 63.17MB tensorflow retro openai-gym dqn
1
Actor-Critic方法中的地址函数逼近误差 双延迟深度确定性策略梯度(TD3)的PyTorch实现。 如果您使用我们的代码或数据,请引用。 在连续控制任务上进行了测试。 使用和Python 3.7训练网络。 用法 可以通过运行以下操作来重现论文结果: ./experiments.sh 可以通过调用以下命令来运行单个环境的实验: python main.py --env HalfCheetah-v2 可以使用main.py的不同参数修改超参数。 我们包括了DDPG(DDPG.py)的实现,本文不使用该实现,以便于将超参数与TD3轻松进行比较。 这不是本文中使用的“ Our DDPG”的实现(请参阅OurDDPG.py)。 可以在找到TD3与之比较的算法(PPO,TRPO,ACKTR,DDPG)。 结果 代码不再完全代表本文中使用的代码。 对超参数等进行细微调整,以提高性能。 学
2022-02-13 21:54:46 121KB Python
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
强化学习——OpenAI Gym——环境理解和显示 本文以CartPole为例。 新建Python文件,输入 import gym env = gym.make("CartPole-v0") # 定义使用gym库中的环境:CartPole env = env.unwrapped # 打开包装 # 以上两句可换成 env = gym.make('CartPole-v0').unwrapped print(env.action_space) # 动作空间,输出的内容看不懂 print(en
2021-12-12 17:25:02 39KB AI 化学 学习
1
要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1:车杆 介绍 在此任务中,我们必须在购物车顶部平衡一根杆。 动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车 我在大约60集中使用DQN解决了这个问题。 以下是得分与情节的关系图。 项目2:山地车 介绍 在此任务中,我们必须教车达到山顶处的目标位置。 操作空间的数量为3。在这种环境下,操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车 我在大约15集中使用DQN解决了此问题。 以下是得分与情节的关系图。 项目3:Pendulam 介绍 在此任务中,我们必须平衡摆锤的颠倒状态。 作用空间的数量为1,这是施加在关节上的扭矩。 动作空间在这里是连续的。 0扭矩[-2,2] 我在大约100集中使用DDPG解决了这个问题。 以下是得分与情节的
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1