使用说明在这里 https://blog.csdn.net/yj13811596648/article/details/88737623
2021-06-15 10:01:36 160.15MB speech 语音识别 性别识别 语音分析
1
Speech-Emotion-Classification-with-PyTorch 四种 分类网络 准确率都高达94 最高为96
2021-06-11 18:07:54 6.25MB 语音情感分类
xp下用Micosoft Speech Object Library Version5.1开发的语音软件在win7下不能正常使用,或visual studio 2013不能调用语音开发包。偶然所得本程序,可修复所述问题,请安装。 修复XP,Win7系统下不能使用TTS语音引擎的问题 精简版Win7,XP,尤其从网上下载的ghost版本的系统 TTS语音引擎多数被阉割,导致很多语音程序无法进行语音朗读。 从Microsoft Speech SDK 5.1中提取打包而成。 安装此程序即可修复。
2021-06-11 14:36:36 4.16MB Win7 TTS语音引擎
1
使用system.speech进行语音控制编程,能够进行语音控制播放(play music)、打开文件(open file)、暂停(pause music)、关闭播放器(close music)。
2021-06-11 09:05:15 13.3MB speech sapi 语音识别 语音控制
1
配置字词,有限的进行语音识别,增加准确率!
2021-06-09 19:13:34 145KB Speech
1
CycleGAN-VC2-PyTorch | 这段代码是用于纸张的PyTorch实现: ,是有关语音转换/语音克隆的工作。 数据集 风投 中国男性演讲者(AISHELL 和) 用法 训练 例子 演示版 参考 更新 2020.11.17 :修复的问题:重新实施第二步的逆向损失。 2020.08.27 :通过添加第二步的逆向性损失 循环GAN-VC2 为了推进非并行VC的研究,我们提出了CycleGAN-VC2,它是CycleGAN-VC的改进版本,结合了三种新技术:改进的目标(两步对抗损失),改进的生成器(2-1-2D CNN) )和改进的鉴别器(GAN修补程序)。 该存储库包含: 实施本文的。 ,可用于创建缓存。 来训练模型。 -训练后转换的结果。 目录 要求 pip install -r requirements.txt 用法 预处理 python pre
2021-06-08 10:23:53 87.12MB deep-learning speech-synthesis gan deeplearning
1
规格 这是SpecAugment的一种实现,该语音数据增强方法可直接使用Tensorflow&Pytorch处理频谱图,这是Google Brain提出的[1]。 当前在Apache 2.0中使用,请随时用于您的项目。 请享用! 如何使用 首先,您需要与一起安装python 3。 接下来,您需要安装一些音频库才能正常工作。 安装需求包。 运行以下命令: pip3 install SpecAugment 然后,运行specAugment.py程序。 它通过在时间方向上扭曲频谱图,掩盖连续频道的块以及掩盖时间上的话语来修改频谱图。 尝试您的音频文件SpecAugment $ python
2021-05-26 10:29:49 237KB python tensorflow speech pytorch
1
Acoustic MIMO signal processing 书 作者 Y. Huang, J. Benesty, J. Chen
2021-05-22 21:27:07 4.26MB Acoustic MIMO signal speech
1
Microsoft Speech SDK 5.1的安装与使用,详解
2021-05-20 15:07:16 1.53MB Microsoft Speech SDK 5.1
1
Recurrent neural networks (RNNs) are a powerful model for sequential data. End-to-end training methods such as Connectionist Temporal Classification make it possible to train RNNs for sequence labelling problems where the input-output alignment is unknown. The combination of these methods with the Long Short-term Memory RNN architecture has proved particularly fruitful, delivering state-of-the-art results in cursive handwriting recognition. However RNN performance in speech recognition has so far been disappointing, with better results returned by deep feedforward networks. This paper investigates deep recurrent neural networks, which combine the multiple levels of representation that have proved so effective in deep networks with the flexible use of long range context that empowers RNNs. When trained end-to-end with suitable regularisation, we find that deep Long Short-term Memory RNNs achieve a test set error of 17.7% on the TIMIT phoneme recognition benchmark, which to our knowledge is the best recorded score.
2021-05-19 09:53:14 413KB 学术论文
1