DeepSpeech剧本 使用DeepSpeech训练语音识别模型的速成班。 快速链接 从这里开始。 本部分将设定您对DeepSpeech手册可以实现的目标的期望,以及开始训练自己的语音识别模型所需的先决条件。 了解了DeepSpeech Playbook可以实现的功能后,本节将概述DeepSpeech本身,其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。 之前,你可以训练一个模型,你需要收集和格式化数据的语料库。 本节概述了DeepSpeech所需的数据格式,并逐步介绍了从Common Voice准备数据集的示例。 如果您正在训练使用与英语不同的字母(例如带有变音符号的语言)的模型,那么您将需要修改alphabet.txt文件。 了解得分手的工作,以及如何建立自己的得分手。 了解DeepSpeech的声学模型和语言模型之间的差异,以及它们如何组合以提供端到端语音识别。 本节
1
根据语音信号降噪的问题, 我们建议 一种新颖的方法 在本文中,其中COMBIN ES Èmpirical模式分解(EMD),小波阈值去噪和我ndependent参照(ICA-R)成分分析。 因为只有一个混合记录,所以实际上是一个单通道独立分量分析(SCICA)问题,用传统的ICA方法很难解决。 EMD是 利用扩大 单-信道预先接收到的信号分成几个我ntrinsic模式功能(IMF分量),所以多维的传统ICA变得适用。 开始步骤,所接收的信号被分段来减少处理延迟。 其次,将小波阈值处理应用于噪声占主导的IMF 。 最后,引入快速ICA-R从处理后的IMF中提取目标语音成分,该IMF的参考信号是通过组合高阶IMF来构造的。 该模拟是在不同的噪声水平进行,所提出的方法的性能与EMD相比,小波阈值,EMD-小波和EMD-ICA接近。 仿真结果表明,所提出的方法表现出优异的性能去噪特别是当信号-到- 信噪比低,具有一半短的运行时间。
2021-11-13 10:54:20 763KB speech signal denoising; EMD;
1
语音情感识别 介绍 该存储库负责构建和培训语音情感识别系统。 该工具背后的基本思想是构建和训练/测试合适的机器学习(以及深度学习)算法,该算法可以识别和检测语音中的人类情感。 这对于许多行业领域很有用,例如提出产品推荐,情感计算等。 查看本以获取更多信息。 要求 Python 3.6+ Python包 librosa == 0.6.3 麻木 大熊猫 声音文件== 0.9.0 海浪 斯克莱恩 tqdm == 4.28.1 matplotlib == 2.2.3 pyaudio == 0.2.11 (可选) :如果要通过转换为16000Hz采样率和convert_wavs.py提供的单声道来添加更多采样音频,则使用 通过以下命令安装这些库: pip3 install -r requirements.txt 数据集 该存储库使用了4个数据集(包括此仓库的自定义数据集),这些数
2021-11-10 18:16:18 911.73MB machine-learning deep-learning sklearn keras
1
image_and_speech_processing Face and speech recognition by use pyqt5 face_recognition baiduai 使用pyqt5 face_recognition 百度ai实现的 对图像和语音的处理 这是上一个版本的更新版 。 这是上一个版本 下面是部分效果图 界面是使用pyqt5 做的 教程稍后会在博客上发布 人脸识别是用face_recognition 这是一些使用方法 语音合成 语音识别是使用百度AI提供的api接口实现 教程稍后再博客上发布 主要思路 稍后再博客上发布
2021-11-10 09:50:20 13.99MB Python
1
语音变压器 介绍 这是语音变压器的PyTorch重新实现:用于语音识别的无重复序列到序列模型。 数据集 Aishell是由北京壳牌壳牌科技有限公司发行的开源中文普通话语料库。 邀请了来自中国不同口音地区的400人参加录音,该录音是在安静的室内环境中使用高保真麦克风进行的,并下采样至16kHz。 通过专业的语音注释和严格的质量检查,手册的转录准确性达到95%以上。 数据免费供学术使用。 我们希望为语音识别领域的新研究人员提供适度的数据。 @inproceedings{aishell_2017, title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline}, author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Z
2021-11-08 14:53:56 1.03MB Python
1
密集连接的时延神经网络 在我们的论文 的密集 (INTERSPEECH 2020)中,密集连接的时延神经网络(D-TDNN)的PyTorch实施。 什么是新的 :warning: [2021-02-14]我们在添加了一个impl选项,现在您可以选择: 'conv':通过F.conv1d实现TDNN。 'linear':通过F.unfold和F.linear实现TDNN。 检查此以获取更多信息。 请注意,尚未完成“ conv”的预训练模型。 [2021-02-04]此存储库中的TDNN(默认实现)比nn.Conv1d慢,但我们采用它是因为: 此仓库中的TDNN还用于创建nn.Conv1d(非对称填充)不完全支持的F-TDNN模型。 nn.Conv1d(dilation> 1,bias = True)训练缓慢。 但是,这里我们不使用F-TDNN,我们总是在D-TDNN中设置bias = F
1
深度学习的好书。语言识别
2021-11-05 20:21:01 7.53MB 深度学习
1
DNN-CNN-and-RNN的语音去噪程序
2021-11-04 13:01:10 10.65MB tensorflow
1
MATLAB盲源分离ICA的问题-Speech.rar 我在网上下载了FastICA Matlab 2.5版的GUI。 在自己的电脑上试着分离两个未知盲源, 一个是演讲,另一个警笛噪音。我想将两个分离出来。我用的是2个microphone来录制的这段音频。 奇怪的是,用下载的这个GUI包,我无法分离这两个盲源。于是我从那个ICA的网站上下载了他们展示的wav音频文件。我可以成功的分离他们展示的音频文件。 我想知道这倒是什么原因。不知道有没有高人能稍微解释解释 这个GUI下载的链接: http://www.cis.hut.fi/projects/ica/fastica/code/dlcode.shtml 做展示的wav文件链接: http://www.cis.hut.fi/projects/ica/cocktail/cocktail_en.cgi (先选择盲源,然后点击mix sources,之后出来两个麦克风。右键点击,然后save link,就可以将混合后的盲源下载到本地了) 附件是我自己录制的混合盲源 先谢谢各位的参与。
2021-11-02 21:48:24 156KB matlab
1
语音合成代码matlab 线性预测语音合成 这个项目试图解决男女元音的语音合成问题,并且是在Matlab软件的帮助下开发的。 使用线性预测代码方法来估计系数和共振峰频率可以达到此目的。 然后,通过使激励信号通过建模滤波器来生成元音。
2021-11-02 18:19:10 8KB 系统开源
1