FastWER 用于快速字/字符错误率 (WER/CER) 计算的 PyPI 包 快速(cpp 实现) 句子级和语料库级 WER/CER 分数 安装 pip install pybind11 fastwer 例子 import fastwer hypo = [ 'This is an example .' , 'This is another example .' ] ref = [ 'This is the example :)' , 'That is the example .' ] # Corpus-Level WER: 40.0 fastwer . score ( hypo , ref ) # Corpus-Level CER: 25.5814 fastwer . score ( hypo , ref , char_level = True ) # Sentence-Leve
1
语音识别通过CNN 孤立词语音识别,复旦大学计算机科学技术学院数字信号处理期末项目 介绍 此仓库实现了一个强大的语音识别系统,该系统可以识别20个单独的单词,例如“语音”,“北京”,“文件”等。它利用从原始语音中提取的梅尔频谱特征,将频谱视为图片,卷积神经网络被用来对它们进行分类。 详细中文介绍请参考课程报告。 怎么玩 您需要一个支持CUDA(因为推理过程需要GPU)和flask的pytorch(版本> = 0.4)的python环境。 强烈建议使用Anaconda设置了环境,了解更多详情,请参考[]和[ ](适用于中国大陆用户的方便,请参见[])。 设置环境后,您可以通过键入以下内容轻松启动识别服务 python audio_server.py 进入您的命令行。 该命令将在端口22339上启动Web服务,因此您可以通过localhost:22339访问它 通过单击按钮,您的声音将被
2021-11-16 15:13:15 144.01MB JupyterNotebook
1
DeepSpeech剧本 使用DeepSpeech训练语音识别模型的速成班。 快速链接 从这里开始。 本部分将设定您对DeepSpeech手册可以实现的目标的期望,以及开始训练自己的语音识别模型所需的先决条件。 了解了DeepSpeech Playbook可以实现的功能后,本节将概述DeepSpeech本身,其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。 之前,你可以训练一个模型,你需要收集和格式化数据的语料库。 本节概述了DeepSpeech所需的数据格式,并逐步介绍了从Common Voice准备数据集的示例。 如果您正在训练使用与英语不同的字母(例如带有变音符号的语言)的模型,那么您将需要修改alphabet.txt文件。 了解得分手的工作,以及如何建立自己的得分手。 了解DeepSpeech的声学模型和语言模型之间的差异,以及它们如何组合以提供端到端语音识别。 本节
1
根据语音信号降噪的问题, 我们建议 一种新颖的方法 在本文中,其中COMBIN ES Èmpirical模式分解(EMD),小波阈值去噪和我ndependent参照(ICA-R)成分分析。 因为只有一个混合记录,所以实际上是一个单通道独立分量分析(SCICA)问题,用传统的ICA方法很难解决。 EMD是 利用扩大 单-信道预先接收到的信号分成几个我ntrinsic模式功能(IMF分量),所以多维的传统ICA变得适用。 开始步骤,所接收的信号被分段来减少处理延迟。 其次,将小波阈值处理应用于噪声占主导的IMF 。 最后,引入快速ICA-R从处理后的IMF中提取目标语音成分,该IMF的参考信号是通过组合高阶IMF来构造的。 该模拟是在不同的噪声水平进行,所提出的方法的性能与EMD相比,小波阈值,EMD-小波和EMD-ICA接近。 仿真结果表明,所提出的方法表现出优异的性能去噪特别是当信号-到- 信噪比低,具有一半短的运行时间。
2021-11-13 10:54:20 763KB speech signal denoising; EMD;
1
语音情感识别 介绍 该存储库负责构建和培训语音情感识别系统。 该工具背后的基本思想是构建和训练/测试合适的机器学习(以及深度学习)算法,该算法可以识别和检测语音中的人类情感。 这对于许多行业领域很有用,例如提出产品推荐,情感计算等。 查看本以获取更多信息。 要求 Python 3.6+ Python包 librosa == 0.6.3 麻木 大熊猫 声音文件== 0.9.0 海浪 斯克莱恩 tqdm == 4.28.1 matplotlib == 2.2.3 pyaudio == 0.2.11 (可选) :如果要通过转换为16000Hz采样率和convert_wavs.py提供的单声道来添加更多采样音频,则使用 通过以下命令安装这些库: pip3 install -r requirements.txt 数据集 该存储库使用了4个数据集(包括此仓库的自定义数据集),这些数
2021-11-10 18:16:18 911.73MB machine-learning deep-learning sklearn keras
1
image_and_speech_processing Face and speech recognition by use pyqt5 face_recognition baiduai 使用pyqt5 face_recognition 百度ai实现的 对图像和语音的处理 这是上一个版本的更新版 。 这是上一个版本 下面是部分效果图 界面是使用pyqt5 做的 教程稍后会在博客上发布 人脸识别是用face_recognition 这是一些使用方法 语音合成 语音识别是使用百度AI提供的api接口实现 教程稍后再博客上发布 主要思路 稍后再博客上发布
2021-11-10 09:50:20 13.99MB Python
1
语音变压器 介绍 这是语音变压器的PyTorch重新实现:用于语音识别的无重复序列到序列模型。 数据集 Aishell是由北京壳牌壳牌科技有限公司发行的开源中文普通话语料库。 邀请了来自中国不同口音地区的400人参加录音,该录音是在安静的室内环境中使用高保真麦克风进行的,并下采样至16kHz。 通过专业的语音注释和严格的质量检查,手册的转录准确性达到95%以上。 数据免费供学术使用。 我们希望为语音识别领域的新研究人员提供适度的数据。 @inproceedings{aishell_2017, title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline}, author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Z
2021-11-08 14:53:56 1.03MB Python
1
密集连接的时延神经网络 在我们的论文 的密集 (INTERSPEECH 2020)中,密集连接的时延神经网络(D-TDNN)的PyTorch实施。 什么是新的 :warning: [2021-02-14]我们在添加了一个impl选项,现在您可以选择: 'conv':通过F.conv1d实现TDNN。 'linear':通过F.unfold和F.linear实现TDNN。 检查此以获取更多信息。 请注意,尚未完成“ conv”的预训练模型。 [2021-02-04]此存储库中的TDNN(默认实现)比nn.Conv1d慢,但我们采用它是因为: 此仓库中的TDNN还用于创建nn.Conv1d(非对称填充)不完全支持的F-TDNN模型。 nn.Conv1d(dilation> 1,bias = True)训练缓慢。 但是,这里我们不使用F-TDNN,我们总是在D-TDNN中设置bias = F
1
深度学习的好书。语言识别
2021-11-05 20:21:01 7.53MB 深度学习
1
DNN-CNN-and-RNN的语音去噪程序
2021-11-04 13:01:10 10.65MB tensorflow
1