搜索【Speech 】的结果

deepspeech-playbook：速成课程，用于使用DeepSpeech训练语音识别模型-源码

DeepSpeech剧本使用DeepSpeech训练语音识别模型的速成班。快速链接从这里开始。本部分将设定您对DeepSpeech手册可以实现的目标的期望，以及开始训练自己的语音识别模型所需的先决条件。了解了DeepSpeech Playbook可以实现的功能后，本节将概述DeepSpeech本身，其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。之前，你可以训练一个模型，你需要收集和格式化数据的语料库。本节概述了DeepSpeech所需的数据格式，并逐步介绍了从Common Voice准备数据集的示例。如果您正在训练使用与英语不同的字母（例如带有变音符号的语言）的模型，那么您将需要修改alphabet.txt文件。了解得分手的工作，以及如何建立自己的得分手。了解DeepSpeech的声学模型和语言模型之间的差异，以及它们如何组合以提供端到端语音识别。本节

2021-11-13 13:28:21 233KB speech-recognition language-model acoustic-model deepspeech

1

结合EMD和小波的单通道ICA-R语音信号降噪方法

根据语音信号降噪的问题，我们建议一种新颖的方法在本文中，其中COMBIN ES Èmpirical模式分解（EMD），小波阈值去噪和我ndependent参照（ICA-R）成分分析。因为只有一个混合记录，所以实际上是一个单通道独立分量分析（SCICA）问题，用传统的ICA方法很难解决。 EMD是利用扩大单-信道预先接收到的信号分成几个我ntrinsic模式功能（IMF分量），所以多维的传统ICA变得适用。开始步骤，所接收的信号被分段来减少处理延迟。其次，将小波阈值处理应用于噪声占主导的IMF 。最后，引入快速ICA-R从处理后的IMF中提取目标语音成分，该IMF的参考信号是通过组合高阶IMF来构造的。该模拟是在不同的噪声水平进行，所提出的方法的性能与EMD相比，小波阈值，EMD-小波和EMD-ICA接近。仿真结果表明，所提出的方法表现出优异的性能去噪特别是当信号-到- 信噪比低，具有一半短的运行时间。

2021-11-13 10:54:20 763KB speech signal denoising; EMD;

1

emotion-recognition-using-speech:构建和培训语音情感识别器，使用Python，Sci-kit学习和Keras预测人的情感

语音情感识别介绍该存储库负责构建和培训语音情感识别系统。该工具背后的基本思想是构建和训练/测试合适的机器学习（以及深度学习）算法，该算法可以识别和检测语音中的人类情感。这对于许多行业领域很有用，例如提出产品推荐，情感计算等。查看本以获取更多信息。要求 Python 3.6+ Python包 librosa == 0.6.3 麻木大熊猫声音文件== 0.9.0 海浪斯克莱恩 tqdm == 4.28.1 matplotlib == 2.2.3 pyaudio == 0.2.11 （可选）：如果要通过转换为16000Hz采样率和convert_wavs.py提供的单声道来添加更多采样音频，则使用通过以下命令安装这些库： pip3 install -r requirements.txt 数据集该存储库使用了4个数据集（包括此仓库的自定义数据集），这些数

2021-11-10 18:16:18 911.73MB machine-learning deep-learning sklearn keras

1

image-and-speech-processing:使用pyqt5进行面部和语音识别face_recognition baiduai-源码

image_and_speech_processing Face and speech recognition by use pyqt5 face_recognition baiduai 使用pyqt5 face_recognition 百度ai实现的对图像和语音的处理这是上一个版本的更新版。这是上一个版本下面是部分效果图界面是使用pyqt5 做的教程稍后会在博客上发布人脸识别是用face_recognition 这是一些使用方法语音合成语音识别是使用百度AI提供的api接口实现教程稍后再博客上发布主要思路稍后再博客上发布

2021-11-10 09:50:20 13.99MB Python

1

Speech-Transformer:PyTorch语音转换器的重新实现-源码

语音变压器介绍这是语音变压器的PyTorch重新实现：用于语音识别的无重复序列到序列模型。数据集 Aishell是由北京壳牌壳牌科技有限公司发行的开源中文普通话语料库。邀请了来自中国不同口音地区的400人参加录音，该录音是在安静的室内环境中使用高保真麦克风进行的，并下采样至16kHz。通过专业的语音注释和严格的质量检查，手册的转录准确性达到95％以上。数据免费供学术使用。我们希望为语音识别领域的新研究人员提供适度的数据。 @inproceedings{aishell_2017, title={AIShell-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline}, author={Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Z

2021-11-08 14:53:56 1.03MB Python

1

D-TDNN:密集连接时延神经网络的PyTorch实现-源码

密集连接的时延神经网络在我们的论文的密集（INTERSPEECH 2020）中，密集连接的时延神经网络（D-TDNN）的PyTorch实施。什么是新的 :warning: [2021-02-14]我们在添加了一个impl选项，现在您可以选择： 'conv'：通过F.conv1d实现TDNN。 'linear'：通过F.unfold和F.linear实现TDNN。检查此以获取更多信息。请注意，尚未完成“ conv”的预训练模型。 [2021-02-04]此存储库中的TDNN（默认实现）比nn.Conv1d慢，但我们采用它是因为：此仓库中的TDNN还用于创建nn.Conv1d（非对称填充）不完全支持的F-TDNN模型。 nn.Conv1d（dilation> 1，bias = True）训练缓慢。但是，这里我们不使用F-TDNN，我们总是在D-TDNN中设置bias = F

2021-11-06 14:36:32 134KB speech speaker-recognition speaker-verification speaker-diarization

1

Automatic Speech Recognition.pdf

深度学习的好书。语言识别

2021-11-05 20:21:01 7.53MB 深度学习

1

Speech-Denoising-using-DNN-CNN-and-RNN-master.zip

DNN-CNN-and-RNN的语音去噪程序

2021-11-04 13:01:10 10.65MB tensorflow

1

MATLAB盲源分离ICA的问题-Speech.rar

MATLAB盲源分离ICA的问题-Speech.rar 我在网上下载了FastICA Matlab 2.5版的GUI。在自己的电脑上试着分离两个未知盲源，一个是演讲，另一个警笛噪音。我想将两个分离出来。我用的是2个microphone来录制的这段音频。奇怪的是，用下载的这个GUI包，我无法分离这两个盲源。于是我从那个ICA的网站上下载了他们展示的wav音频文件。我可以成功的分离他们展示的音频文件。我想知道这倒是什么原因。不知道有没有高人能稍微解释解释这个GUI下载的链接： http://www.cis.hut.fi/projects/ica/fastica/code/dlcode.shtml 做展示的wav文件链接： http://www.cis.hut.fi/projects/ica/cocktail/cocktail_en.cgi （先选择盲源，然后点击mix sources，之后出来两个麦克风。右键点击，然后save link，就可以将混合后的盲源下载到本地了）附件是我自己录制的混合盲源先谢谢各位的参与。

2021-11-02 21:48:24 156KB matlab

1

语音合成代码matlab-Speech-Synthesis-with-Linear-Predictive-Coding:这个项目试图解决男女元

语音合成代码matlab 线性预测语音合成这个项目试图解决男女元音的语音合成问题，并且是在Matlab软件的帮助下开发的。使用线性预测代码方法来估计系数和共振峰频率可以达到此目的。然后，通过使激励信号通过建模滤波器来生成元音。

2021-11-02 18:19:10 8KB 系统开源

1

个人信息

热门下载

最新下载

其他资源