作者:Microsoft Research AI首席科学家 - 邓力 俞栋 This book provides a comprehensive overview of the recent advancement in the field of automatic speech recognition with a focus on deep learning models including deep neural networks and many of their variants. This is the first automatic speech recognition book dedicated to the deep learning approach. In addition to the rigorous mathematical treatment of the subject, the book also presents insights and theoretical foundation of a series of highly successful deep learning models.
2022-06-29 23:49:52 4.78MB deep learnin speech recog
1
Action Recognition Dataset行为识别数据集.zip
2022-06-29 09:06:43 230B 数据集
用于面部识别的计算机视觉算法概述。 本文的主要思想是探索一种算法,该算法可用于具有合适方法和可用输入的生物识别考勤系统。 该算法主要使用面向直方图的梯度来寻找人脸、估计人脸地标、支持向量机识别人脸和深度卷积网络来比较人脸。 文章中描述了面部识别的基础和科学程序。 还开发了一个基本应用程序,以标记人脸出现的时间是 .csv 格式并标记出勤。 本文主要使用 dlib 和 face_recognition 库来提供功能。
2022-06-26 14:24:41 455KB dlib face_recognition
1
眼病智能识别(ODIR)是一个结构化的眼科数据库,其中包含5,000名年龄,左眼和右眼的彩色眼底照片以及医生的诊断关键词的患者。该数据集旨在表示由上工医疗技术有限公司从中国不同医院/医疗中心收集的“真实”患者信息集。在这些机构中,眼底图像由市场上的各种相机(例如佳能,蔡司和Kowa)捕获,从而产生不同的图像分辨率。
2022-06-24 00:16:42 1.62GB 数据集
1
统一手势识别和指尖检测 同时用于手势识别和指尖检测的统一卷积神经网络(CNN)算法。 所提出的算法使用单个网络预测一次手指类别分类的概率和指尖位置输出以进行回归评估。 根据手指类别的概率,可以识别手势,并使用这两个信息对指尖进行定位。 我们没有直接从CNN的完全连接(FC)层中移出指尖位置,而是从完全卷积网络(FCN)中移出了指尖位置集合,然后采用集合平均来使最终的指尖位置输出回归。 更新 包括robust real-time hand detection using yolo进行的robust real-time hand detection using yolo在检测系统的第一阶段获得更好的平滑性能,并且大多数代码已经过清理和重组,以便于使用。 要获取以前的版本,请访问发布。 要求 TensorFlow-GPU == 1.15.0 凯拉斯== 2.2.4 ImgAug == 0.
2022-06-22 16:41:12 1.76MB solo cnn yolo gesture-recognition
1
遮罩TextSpotter v3 这是ECCV 2020纸的PyTorch。 Mask TextSpotter v3是一种端到端的可训练场景文本查找器,它采用分段提议网络(SPN)而不是RPN。 Mask TextSpotter v3显着提高了旋转,长宽比和形状的鲁棒性。 与Mask TextSpotter的关系 在这里,我们将Mask TextSpotter系列标记为Mask TextSpotter v1( ,),Mask TextSpotter v2( ,)和Mask TextSpotter v3(ECCV 2020论文)。 该项目是由Creative Commons Attribution-NonCommercial 4.0 International授予的。部分代码是从继承的,后者已获得MIT许可。 安装 要求: Python3(建议使用Python3.7) PyTorch>
1
下采样matlab代码快速人类动作识别 介绍 该存储库保存了该项目的代码库和数据集: 识别人类快速动作的时空图卷积网络 先决条件 Python3(> 3.5) 资料准备 我们对NTU-RGB + D的3D骨骼数据进行了实验。 预处理的数据可以从下载。 下载数据后,将“ NTU-RGB-D”文件夹解压缩到路径中。 下采样 为了创建快速动作的数据集,我们对NTU-RGB + D数据集进行下采样。 下采样是通过拍摄一帧然后保留另一帧,将帧数减半来完成的。 运行“ downsample.py”以对所需数据进行下采样。 数据缩减(可选) 我们提供“ create_small_data.py”,通过从所有60个动作中选择多个动作来从原始数据中创建较小的数据。 可以根据代码上的标签在代码中选择所需的操作。 可视化 我们在MATLAB上提供NTU-RGB + D的3D骨骼数据的可视化。 可以在“可视化”文件夹中找到更多详细信息。 训练 可以通过运行“ main.py”来训练模型。 结果将显示在“结果”文件夹中。 如果使用较小的数据,则需要对代码进行一些修改,这些修改在代码中有详细说明。 结果 此处显示
2022-06-06 11:12:26 755KB 系统开源
1
matlab由频域变时域的代码EEC-201 [说话者识别] ♪我周围都是熟悉的面Kong..但是现在他们是熟悉的声音...♫ 团队:敬业的工程师 这个项目是由Aakansha和Sadia共同完成的,目的是使用MFCC,VQ和LBG算法来实现说话人识别。 Sadia从事过预加工和MFCC。 Aakansha从事LBG,噪声添加和陷波过滤方面的工作。 培训,测试和分析写作是同时进行的。 介绍 在当今世界大流行和隔离的情况下,从字面上看,我们的声音变得越来越重要。 由于通信仅限于虚拟,因此通过面对面或通过指纹进行的身份验证已经过时。 但是,正如我们的脸部和指纹独特一样,我们的声音也具有鲜明而可区分的特征。 如我们的项目所示,计算机程序比人耳能够更好地识别这些功能。 我们使用模式识别或特征匹配实现说话人识别系统,其中将从输入语音信号中提取的声学矢量序列分类为各个说话人ID。 具体来说,我们的系统是监督模式识别的一种实现,其中数据库由训练集中的已知模式组成,这些模式与测试集进行比较以评估我们的分类算法。 有两种方法可以进行说话人识别-依赖文本和不依赖文本。 依赖于文本的说话者识别策略要求说话者
2022-06-01 21:48:16 2.8MB 系统开源
1
情感识别 机器学习算法将人脸分为七类(即愤怒、厌恶、恐惧、快乐、悲伤、惊讶、中性)之一。
2022-05-31 11:15:14 248.46MB MATLAB
1
Deep Residual Learning for Image Recognition原版及翻译及笔记, 博客参考:https://blog.csdn.net/m0_46384757/article/details/125054695 resnet代码参考:https://download.csdn.net/download/m0_46384757/85503785
2022-05-31 09:12:10 17.17MB 综合资源 计算机视觉