深度神经网络自监督视觉特征学习综述 为了在计算机视觉应用中学习得到更好的图像和视频特征,通常需要大规模的标记数据来训练深度神经网络。为了避免收集和标注大量的数据所需的巨大开销,作为无监督学习方法的一个子方法——自监督学习方法,可以在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般性特征。本文对基于深度学习的自监督一般性视觉特征学习方法做了综述。首先,描述了该领域的动机和一些专业性术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,并介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于标准数据集的性能比较方法在图像和视频特征学习中的应用。 https://ieeexplore.ieee.org/document/9086055 https://www.zhuanzhi.ai/paper/0e9852bb57c7fe00cc59723fc0ee899f 引言 由于深度神经网络具有学习不同层次一般视觉特征的强大能力,它已被作为基本结构应用于许多计算机视觉应用,如目标检测[1]、[2]、[3]、语义分割[4]、[5]、[6]、图像描述[7]等。从像ImageNet这样的大规模图像数据集训练出来的模型被广泛地用作预训练模型和用于其他任务的微调模型,主要有两个原因:(2)在大规模数据集上训练的网络已经学习了层次特征,有助于减少在训练其他任务时的过拟合问题;特别是当其他任务的数据集很小或者训练标签很少的时候。 深度卷积神经网络(ConvNets)的性能在很大程度上取决于其能力和训练数据量。为了增加网络模型的容量,人们开发了不同类型的网络架构,收集的数据集也越来越大。各种网络,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大规模数据集,如ImageNet [14], OpenImage[15]已经被提出训练非常深的ConvNets。通过复杂的架构和大规模的数据集,ConvNets的性能在许多计算机视觉任务[1],[4],[7],[16],[17],[18]方面不断突破先进水平。 然而,大规模数据集的收集和标注是费时和昂贵的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中应用最广泛的数据集之一,包含约130万张已标记的图像,覆盖1000个类,而每一幅图像由人工使用一个类标签进行标记。与图像数据集相比,视频数据集由于时间维度的原因,其采集和标注成本较高。Kinetics数据集[19]主要用于训练ConvNets进行视频人体动作识别,该数据集由50万个视频组成,共600个类别,每个视频时长约10秒。许多Amazon Turk工作人员花了大量时间来收集和注释如此大规模的数据集。 为了避免费时和昂贵的数据标注,提出了许多自监督方法来学习大规模无标记图像或视频的视觉特征,而不需要任何人工标注。一种流行的解决方案是提出各种各样的前置任务让网络来解决,通过学习前置任务的目标函数来训练网络,通过这个过程来学习特征。人们提出了各种各样的自监督学习任务,包括灰度图像着色[20]、图像填充[21]、玩图像拼图[22]等。藉口任务有两个共同的特性:(1)图像或视频的视觉特征需要被ConvNets捕捉来解决前置任务;(2)监控信号是利用数据本身的结构(自我监控)产生的。 自监督学习的一般流程如图1所示。在自监督训练阶段,为ConvNets设计预定义的前置任务,并根据数据的某些属性自动生成前置任务的伪标签。然后训练卷积神经网络学习任务的目标函数。当使用前置任务进行训练时,ConvNet的较浅的块集中于低级的一般特征,如角、边和纹理,而较深的块集中于高级任务特定的特征,如对象、场景和对象部分[23]。因此,通过藉由任务训练的ConvNets可以学习内核来捕获低级特征和高级特征,这对其他下游任务是有帮助的。在自监督训练结束后,学习到的视觉特征可以作为预训练的模型进一步转移到下游任务中(特别是在数据相对较少的情况下),以提高性能和克服过拟合。通常,在有监督的下游任务训练阶段,仅从前几层传递视觉特征。
2021-10-26 17:06:00 2.55MB 深度学习
1
自动驾驶技术手册 版权声明 本维基百科“知识共享署名-相同方式共享4.0国际协议(CC 4.0-BY-SA)”,详见。
2021-10-25 18:43:56 3.61MB Shell
1
SDC-车道和车辆检测-跟踪 Python中的OpenCV,用于自动驾驶汽车的车道线和车辆检测/跟踪 阅读我关于这个项目的 Medium。
1
强化学习解决方案第二版(Richard S. Sutton的,Andrew G. Barto) 第12章已更新。 有关详细信息,请参见下面的日志。 那些正在使用它来完成您的作业的学生,​​请停止该作业。 本手册旨在为数百万没有官方指南或适当学习环境的自学人士提供服务。 而且,当然,作为个人项目,它会出现错误。 (如果发现任何问题,则有助于解决问题)。 欢迎来到这个项目。 这是一个很小的项目,我们还没有做太多的编码,但是我们一起合作完成了著名的RL书籍《强化学习》(萨顿的介绍)中的一些棘手的练习。 您可能知道这本书,尤其是去年出版的第二版,没有正式的解决方案手册。 如果将答案发送到作者留下的电子邮件地址,则将返回不完整且较旧的伪造答题纸。 那么,为什么我们不写我们自己的呢? 大多数问题都是数学证明,可以很好地学习理论主干,但其中一些是颇具挑战性的编码问题。 两者都将逐渐更新,但数学将排在第
1
GAN生成对抗网络 基于Tensorflow 实现去噪 以及图片生成 可自己修改图片数据集 以及迭代次数等 内附命令行 小白可上手
2021-10-18 09:44:56 71KB GAN Tensorflow
1
Kohonen的自组织地图(SOM) 背景 Teuvo Kohonen在1990年撰写的原始是第一个能够进行无监督学习的神经网络模型之一。 在算法的不同实现中,该算法几乎完全遵循原始论文。 更新功能定义为 哪里 和 是当前时代。 而且,每个神经元都与其他所有神经元相连,因此该图是 完整的图形,其中 是神经元的数量。 例 from sklearn . datasets import load_iris from sklearn . decomposition import PCA import matplotlib . pyplot as plt import numpy as np from som . mapping import SOM dataset = load_iris () train = dataset . data # Reducing the dimensiona
1
自组织图 在Python上的IRIS数据集上实现基本SOM聚类。 SOM教程: : 数据集来源: : 聚类结果的可视化: Red = Iris-Setosa Green = Iris-Virginica Blue = Iris-Versicolor 以上视觉表示的详细信息: 可以说每个像素代表SOM的一个节点。 如果像素颜色鲜艳,则意味着该颜色表示的许多类别的图案都会激活该像素,即,该像素是同一类别的许多图案的最佳匹配单位。 相反也是如此。 也就是说,深色像素是该颜色所代表的类别的少数几种模式的最佳匹配单位。 如果颜色是两种颜色的混合(例如“蓝绿色”),则像素代表“灰色区域”,即该像素是不同类别图案的最佳匹配单位。 对于任何输入模式,黑色像素都不是最匹配的像素。
2021-10-06 17:11:34 29KB som self-organizing-map JupyterNotebook
1
萨根 Self Attention GAN的TensorFlow实现 进展:SAGAN在理论上起作用; 需要进行收敛测试; 必须计算数据集的均值和方差
2021-10-06 15:47:30 18KB Python
1
车辆路径matlab代码 无人驾驶车辆模型预测控制(第2版) 无人驾驶车辆模型预测控制(第2版)随书仿真程序及扩展学习资料. This repo holds the Simulink/CarSim codes for examples of Self-driving Vehicles and Model Predictive Contorl (2ed edition). Contents Chapter-2: Vehicle model validation, including 4 examples tire model validation kinematic model validation dynamic model validation Chapter-3: MPC for longitudinal control, including 4 examples a simple example using MPC toolbox for speed tracking demo MPC for speed tracking control with du as input Ext
2021-09-30 16:41:59 7.08MB 系统开源
1
Python原来这么简单(win系统 提高篇)
2021-09-25 16:03:08 102.27MB python
1