论文复习 语音识别论文综述·NLP·语音合成 年 纸 链接 2006/06 Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks 2015/06 Attention-Based Models for Speech Recognition 2015/08 Listen, Attend and Spell 2016/09 Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning 2017/07 Attention Is All You Need 2018/10 BERT: Pre-training of Deep Bidir
2022-12-13 14:09:23 863KB nlp speech speech-synthesis speech-recognition
1
matlab手写体识别代码光学手写字符识别 该程序使用 Matlab 的计算机视觉工具箱将手写图片转换为可打印的文本。 “emnist-letters.mat”文件是用于训练神经网络的数据集。 运行代码: 确保文字的图片,以及以下MATLAB文件在同一个文件夹中:MultiLineSegment.m、myNNfun.m、NNreturnLetter.m、ReturnLetter3.m、OneLineSegment.m。 如果图片有多行,请运行 MultiLineSegment.m 文件。 如果图片只有一行,可以运行 MultiLineSegment.m 或 OneLineSegment.m。 对于 2 和 3,确保图片名称在代码的 imread('') 部分。 这应该是运行文件所需的全部内容。
2022-12-12 19:58:50 6.26MB 系统开源
1
使用PCA-2D-PCA和2D-Square-PCA进行人脸识别 用于识别人脸的Python中PCA / 2D-PCA / 2D(Square)-PCA的实现: 单人图像 集团形象 识别视频中的人脸 ORL数据集的准确性 PCA(93.42%) 二维PCA(96.05%) 2D(平方)-PCA(97.36%) 要求 麻木 OpenCV 科学的 用法 在Face_Recognition类中,使用来自(pca,2d-pca,2d2-pca)的algo_type 在Face_Recognition类中,将reco_type用作 对于单张图片= 0 视频= 1 对于组图像= 2 该项目使用ORL数据集,您可以将数据集放置在images文件夹中,并在dataset.py文件中更改数据集的名称(可以使用提供的FaceExtractor通过提取面部来创建新的数据集) 运行Face_Rec
1
matlab精度检验代码我们提供了使用超维计算的语言识别算法的Matlab和VERILOG RTL实现。 这些程序被许可为GNU GPLv3。 对于MATLAB代码,基本上有两个主要功能: buildLanguageHV(N,D):这是一种训练功能。 D是超向量的维数(约10K),N是N-gram的大小(从单字到五角星)。 此函数返回[iM,langAM]。 iM是存储超向量的项目存储器。 langAM是存储语言超向量的内存,可用作关联内存。 测试(iM,langAM,N,D):这是一个测试功能。 此测试功能测试看不见的句子,并尝试通过查询langAM来识别其语言。 这是一个使用算法的简单示例: langRecognition D = 10000; N = 4; [iM,langAM] = buildLanguageHV(N,D); 加载的转换语言文件../training_texts/afr.txt加载的转换语言文件../training_texts/bul.txt ...%请耐心等待一段时间,以使用所有语言 精度=测试(iM,langAM,N,D)加载的测试文本文件../testi
2022-12-06 18:28:58 22.98MB 系统开源
1
沟通是聋哑社区和社会其他成员之间的障碍。 手语用于在这些不会说话和听不懂的人之间进行交流。 在过去的几年中,手语识别的自动化已引起研究人员的关注。 已经开发了许多复杂且昂贵的硬件系统来辅助该目的。 但是,我们建议使用深度学习方法进行自动手语识别。 我们设计了一种基于ResNet50的新型2级深度神经网络体系结构来对拼写单词进行分类。 使用的数据集是标准的[1]的美国手语手势数据集。 首先使用各种扩充技术来扩充数据集。 在基于2级ResNet50的方法中,1级模型将输入图像分类为4组之一。 在将图像分类为一组图像之后,将其提供为相应的第二级模型的输入,以用于预测图像的实际类别。 我们的方法在12,048张测试图像上产生了99.03%的精度。
2022-12-04 13:33:12 549KB sign language recognition gesture
1
面部对齐 通过回归树进行人脸对齐 预要求 Visual Studio 2012+ 和 OpenCV 安装在 C:/opencv
1
使用手写识别的计算器 这个项目是我面向对象编程课程的最后一个项目。 下面介绍该算法为显示包含数学方程式的输入图像的结果而采取的步骤。 1-图像分割 该程序对输入图像进行分段,仅提取所需的数字或运算符进行计算,然后将每个数字或运算符转换为28x28像素的小图像,这将作为神经网络的输入。 程序接受的数字范围是0-9 ,有效的操作是:加法,减法,乘法,除法,幂和使用括号。 2-分类 从算法的第一步中提取的缩略图被馈送到仅具有一个隐藏层的预训练神经网络,该神经网络的预测是S形激活的向量,每个描述输入的依存概率p(i)图像属于第(i)类。 3-计算结果 对每个分割的图像进行分类后,我们将此分类转换为相应的数字或运算符,并将其隐含为表达式字符串。 然后,我们将此字符串传递给基于堆栈的计算器以计算其结果。 然后使用简单的GUI将所有这些包装到JavaFX应用程序中。 将发布文档,以获取有关算法步骤以及
1
人脸识别 这个仓库是使用TensorFlow 2.0框架,并基于 论文上完成的,其中主要分为四大块:人脸检测、人脸矫正、提取特征和特征比对。各个模块的大小和在我的 17 款 macbook-pro 的 CPU 上跑耗时如下: 人脸检测:使用的是 mtcnn 网络,模型大小约 1.9MB,耗时约 30ms; 人脸矫正:OpenCV 的仿射变换,耗时约 0.83ms; 提取特征:使用 MobileFaceNet 和 IResNet 网络,耗时约30ms; 特征比对:使用曼哈顿距离,单次搜索和完成比对耗时约 0.011 ms; 注册人脸 注册人脸的方式有两种,分别是: 打开相机注册: $ python register_face.py -person Sam -camera 按 s 键保存图片,需要在不同距离和角度拍摄 10 张图片或者按 q 退出。 导入人脸图片: 保证文件的名字与注册人名相
1
【OpenCV】人脸识别 实验报告:人脸识别方法的重新研究和实验分析 有关更多详细信息,参见
2022-11-27 14:55:07 3KB C++
1
实时手势识别 通过网络摄像头检测手部和头部运动手势并显示相应的左/右箭头以显示运动方向。 步骤:Haar Cascade Classifier 检测人脸。 HSV 颜色空间中的皮肤颜色过滤器以识别皮肤区域。 轮廓分割,利用矩计算轮廓的质心,并根据质心的变化方向显示相应的方向。 在 Python 中使用 OpenCV。
2022-11-21 09:17:02 77.9MB Python
1