该工程代码是实现了最基本的QT界面设计以及把ui界面转换成python文件的界面程序,需要的朋友请自取。。。。。。。。。。。。。。。。。。
2022-11-19 00:22:53 8KB Face-Recognition 人脸检测 QT界面设计
1
人脸识别 本项目代表对面部投影技术(PCA,ICA和LDA)的比较分析,旨在比较使用公平意识训练对这些模型的性能影响的程度。 该技术在FERET图像数据集的两个450图像子集上进行了测试,一个旨在保留美国人口的种族构成(70%的白种人,20%的非洲人,10%的东南亚人),而其他人的种族背景分布均匀(33%的白人,33%的非洲人,33%的东南亚人)。 这两个数据集每个类(人)都包含两个图像,旨在模拟法律规范应用,其中每个人的可用图像数量预计会很少。 培训方法基于[1]中使用的方法。 首先通过均值减法和标准化对训练图像进行预处理。 然后执行PCA,得到一个180维子空间(450的40%),该子空间在受人口影响的数据中分别保留99.66%的信息,在公平意识的数据中分别保留99.68%的信息。 然后将这些预测用作ICA和LDA的输入数据。 生成的空间用于投影以前看不见的图像,并通过将它们与同一个
1
能过实现基本的语音识别功能,内部代码含有注释,适合初学者,对入门有一定帮助。
2022-11-13 20:29:13 86KB speech recognition
1
RNN和Temporal-ConvNet进行活动识别 ,(等额缴纳) 论文代码: (在杂志上接受,2019年) 项目: 抽象的 在这项工作中,我们使用ResNet-101演示了一个强大的基线两流ConvNet。 我们使用此基线来彻底检查RNN和Temporal-ConvNets的使用,以提取时空信息。 基于我们的实验结果,然后我们提出并研究了两个不同的网络,以进一步整合时空信息:1)时域RNN和2)初始样式的Temporal-ConvNet。 我们的分析确定了每种方法的特定局限性,这些局限性可能构成未来工作的基础。 我们在UCF101和HMDB51数据集上的实验结果分别达到了94.1%和69.0%的最新性能,而无需大量的时间增强。 我们如何解决活动识别问题? 演示版 GIF展示了我们的TS-LSTM和“时间-开始”方法的前3个预测结果。 顶部的文本是基本事实,三个文本是每种方法的预
1
jsk_recognition jsk_recognition是用于JSK实验室的感知包的堆栈。 ROS包 包裹 描述 文献资料 代码 jsk_recognition_msgs jsk_pcl_ros和jsk_perception的ROS消息。 jsk_perception 用于2D图像感知的ROS节点和小节点。 jsk_pcl_ros 用于点云感知的ROS节点集。 jsk_pcl_ros_utils 用于点云感知的ROS实用程序nodelet。 resize_image_transport ROS节点以发布调整大小的图像。 jsk_recognition_utils 有关传感器模型,几何模型的C ++库 checkerboard_detector 使用opencv查找棋盘并计算其... imagesift 对于每个图像,计算其筛选功能并进行筛选。 画廊 D
2022-11-07 19:07:38 204.6MB hacktoberfest C++
1
低速HFR的双变量生成 编写的一种的纸面码。 消息 DVG的扩展版本在IEEE TPAMI 2021中发布( ),其代码在发布。 新发布的扩展版本比该版本具有更强大的性能。 先决条件 Python 2.7 火炬0.4.1和火炬视觉0.2.1 训练发电机 下载已在MS-Celeb-1M数据集上进行预训练的LightCNN-29模型( )。 训练发电机: sh run_train_generator.sh 请注意,这是我们原始代码的简化版本: 1.消除了论文中的多样性损失和对抗性损失。 2.分布对齐损失由最大平均差异(MMD)损失代替。 训练期间生成的结果将保存为./results 。 从噪点生成图像 使用训练有素的生成器来采样100,000个配对的异构数据: Python val.py --pre_model './model/netG_model_epoch_50_iter_0
1
matlab倒错代码MFCC处理数字识别系统 这是华盛顿大学电气工程 DSP 集中的 Capstone 项目。 字幕: 神经网络; 机器学习; MFCC; 语音识别; 音频分类; 细节: 它是一个实时音频数字识别系统。 它包含 2500 个用于训练和测试的音频数据,1500 个来自公共数据集,100 个来自大学志愿者。 为了处理输入音频的不同音量和长度,我使用了梅尔频率倒谱系数(MFCC)来提取输入音频的特征,成功地将数据维度减少了 1 到 34,同时保持了频率网络训练的特征。 最后,我为训练部分实现了前馈神经网络,并对其进行了微调以获得良好的结果。 结构体: 这个Repo主要包含两部分代码: Matlab 代码用于计算音频信号的 MFCC。 Python 代码是前馈神经网络的实现。
2022-11-04 11:37:56 72.78MB 系统开源
1
激光 闪电自动语音识别 一个基于PyTorch-Lightning的MIT许可ASR研究库,用于开发端到端ASR模型。 介绍 是用于高性能AI研究的轻量级包装器。 PyTorch非常易于使用,可以构建复杂的AI模型。 但是一旦研究变得复杂,并且诸如多GPU训练,16位精度和TPU训练之类的东西混在一起,用户很可能会引入错误。 PyTorch Lightning恰好解决了这个问题。 Lightning构造了您的PyTorch代码,因此它可以抽象出培训的详细信息。 这使AI研究具有可扩展性,并且可以快速迭代。 该项目是使用PyTorch Lightning实现asr项目的示例。 在这个项目中,我训练了一个模型,该模型包括一个带有联合CTC注意的构象编码器+ LSTM解码器。 所述LASR装置升ighthning一个utomatic小号peechřecognition。 我希望这可以成为那些研究
1
人脸图像特征提取matlab代码基于特征值的面部识别和匹配 该项目旨在通过使用Haar分类器来改进人脸检测系统,以获得更高的准确度结果。 Haar分类器用于面部检测,因为它可以非常快速地检测到所需图像。 该算法已用于检测,实现了较高的检测精度。 1.数据预处理 出于该项目的目的,已经获得了40个人的数据集。 这些人每个人都有10个姿势不同的图像。 这意味着总共有40 x 10 = 400张图像。 对于每个人,都有单独的文件夹。 用这种方式解释会造成混乱。 在图1中,我们可以在第一行中看到40个标记为1、2、3到40的人。每个人都有10张图像。 这些图像是灰度的。 所有这些图像必须具有相同的尺寸和分辨率。 最后,每个人的图像都保存在单独的文件夹中。 在图1中,s1,s2,s3…..s40代表文件夹。 此过程的摘要如下:•每个人10张图像•每个人1个文件夹(s1,s2,s3等)•图像必须为灰度级•图像必须具有相同的分辨率和尺寸。 我已经拍摄了92 x 112像素的图像。 •图像名称必须是数字,例如1、2、3。•并且图像必须具有相同的扩展名,例如bmp,pgm和/或任何图像格式 2.数据集加
2022-11-01 22:40:33 3.68MB 系统开源
1