TransFG:用于细粒度识别的变压器体系结构 论文的官方PyTorch代码: 不久将发布基于ImageNet-1K上训练的DeiT的实现,并进行精调。 框架 依存关系: 的Python 3.7.3 PyTorch 1.5.1 火炬视觉0.6.1 ml_collections 用法 1.下载Google预先训练的ViT模型 :ViT-B_16,ViT-B_32 ... wget https://storage.googleapis.com/vit_models/imagenet21k/{MODEL_NAME}.npz 2.准备数据 在本文中,我们使用来自5个公开数据集的数据: 请从官方网站下载它们,并将它们放在相应的文件夹中。 3.安装所需的软件包 使用以下命令安装依赖项: pip3 install -r requirements.txt 4.火车 要在FP-16模式下以
2022-01-08 10:12:51 738KB fine-grained-recognition Python
1
ets 此存储库为AUNets提供了PyTorch实现。 AUNets依赖于每个面部表情具有独立的和二进制的CNN的功能。 它适用于整体面部图像,即无需关键点或面部矫正。 项目页面: : 引文 @article{romero2018multi, title={Multi-view dynamic facial action unit detection}, author={Romero, Andr{\'e}s and Le{\'o}n, Juan and Arbel{\'a}ez, Pablo}, journal={Image and Vision Computing}, year={2018}, publisher={Elsevier} } 用法(火车) $./main.sh -GPU 0 -OF None # It will train AUNets (1
1
人脸识别检查系统 基于python + face_recognition + opencv + pyqt5 +百度AI实现的人脸识别,语音播报,语音合成,模拟签到系统 使用python3 +写的,使用face_recognition(python开源的人脸识别库)进行人脸识别,使用opencv2进行打开显示摄像头图片等,使用pyqt5是ui界面,使用百度AI中的百度语音合成实现语音播报和语音合成,使用对excel的操作以及人脸识别实现模拟签到。 只需要把一张具有人脸信息的图片按名字命名放到相应的文件夹中,在text.txt文本中输入详细信息,即可使用。 文档在CSDN上面 简单介绍以及配置 功能介绍
2022-01-07 16:30:19 53.73MB 系统开源
1
Deep Residual Learning for Image Recognition(七月在线DL翻译组2017.4)
2022-01-07 10:44:47 1.08MB 七月在线 dl
1
Kaggle语音识别 这是针对的Kaggle竞赛的项目,目的是为简单的语音命令构建语音检测器。 该模型是使用连接器时间分类(CTC)成本的卷积残差,向后LSTM网络,由TensorFlow编写。 首先将音频波文件转换为滤波器组频谱图。 CNN层从频谱图输入中提取分层特征,而LSTM层的作用类似于编码器/解码器,对CNN特征的序列进行编码,并输出字符作为输出。 LSTM编码器/解码器非常动态。 取决于训练词汇,可以用整个单词,音节或仅音素的信息对发出的字符进行编码。 完全连接的层会压缩表示形式,并进一步将字符与单词解耦。 该项目旨在调试和可视化友好。 提供这些界面以权重和激活,登录TensorBoard并记录示例单词的学习,这些示例单词显示了如何在训练中学习角色和决策边界。 安装和使用: 先决条件:Python 3.5,TensorFlow 1.4; 或Python 3.6,Tens
2022-01-06 13:45:16 1.93MB tensorflow kaggle lstm speech-recognition
1
神经网络与模式识别方面的经典书籍,没下过的来下
2022-01-06 11:35:51 22.44MB Neural Networks Pattern Recognition
1
深度较之宽度对神经网络具有更重要的意义,能一定程度模拟人脑,但是随着深度的加深,会出现梯度消失问题,阻碍了模型的收敛。Deep Residual Learning for Image Recognition一文给出了一种避免梯度消失的网络模型-深度残差网络,对深度学习的发展至关重要。
2022-01-04 19:05:39 282KB AI
1
Facial Action Recognition for Facial Expression.....
2022-01-03 16:15:26 810KB 表情识别
1
性别识别 通过CNN神经网络,把输入的人脸图片分辨为男性或女性 数据集要求: 下载后将Caucasian数据文件放入项目目录下 运行prepear_data.py把数据分割,自动生成data目录存放分割后的数据 运行train.py训练,eval.py测试。
2022-01-03 14:14:20 11KB Python
1
基于变压器的场景文本识别(Transformer-STR) 我的基于场景文本识别(STR)新方法的PyTorch实现。 我改编了由设计的四阶段STR框架,并替换了Pred. 变压器的舞台。 配备了Transformer,此方法在CUTE80上优于上述深层文本识别基准的最佳模型7.6% 。 从下载预训练的砝码 该预训练权重在Synthetic数据集上进行了约700K次迭代训练。 Git克隆此仓库并下载权重文件,将其移至checkpoints目录。 从 下载lmdb数据集以进行训练和评估(由) data_lmdb_release.zip包含以下内容。 训练数据集: [1]和 [2] 验证数据集:训练集 [3], [4], [5]和 [6]的并集。 评估数据集:基准评估数据集,由 [5], [6], IC03 [7], IC13 [3], IC15 [4], SVTP [8]和
2022-01-02 13:59:23 154KB ocr text-recognition transformer-str Python
1