本内斯蒂关于语音增强的著作,值得大家下载下来仔细研究
2023-08-11 16:29:35 1.4MB 本内斯蒂
1
PyTorch + Catalyst实现的“ 。 该存储库处理培训过程。 为了进行推断,请检出GUI包装器:PyQT中的 。 该储存库已与合并为。 目录 要求 计算方式 我们在1050 Mobile和Tesla V100的两个GPU上运行了该程序。 我们没有进行任何基准测试,但是V100的速度大约提高了400倍。 它还取决于您下载的数据量。 因此,任何服务器级GPU都是可行的。 贮存 该程序确实会生成很多文件(下载和其他方式)。 每个音频文件的大小为96kiB。 对于7k独特的音频剪辑,并以70/30的比例进行火车和验证拆分,它占用了约120GiB的存储空间。 因此,如果您下载更多音频片段,则至少为1TB 。 记忆 至少需要4GB VRAM 。 它可以处理2个批处理大小。在20个批处理大小下,在两个GPU上,每个GPU占用16GiB VRAM。 设置 如果您使用的是Docker,则
1
www.fon.hum.uva.nl/praat 开源免费 语音处理软件,支持常用语音信号处理,可编写脚本组合不同功能.
2023-03-30 10:32:58 6.4MB speech signal processing
1
语音识别 使用Web Speech API的语音识别 Web Speech API的SpeechRecognition接口是识别服务的控制器接口; 这也处理从识别服务发送的SpeechRecognitionEvent。 您可以在这里查看项目
2023-03-02 16:59:03 3KB JavaScript
1
PyKaldi是语音识别工具包的Python脚本层。 它为Kaldi和库中的C ++代码提供了易于使用,开销低,一流的Python包装器。 您可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情,例如调用低级Kaldi函数,在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。 您可以将Kaldi视为一大盒乐高积木,您可以将它们混合搭配以构建自定义语音识别解决方案。 想到PyKaldi的最好方法是作为补充,如果愿意的话,可以作为Kaldi的助手。 实际上,与Kaldi一起使用时,PyKaldi处于最佳状态。 为此,复制Kaldi提供的无数命令行工具,实用程序脚本和Shell级别配方的功能对于PyKaldi项目而言是非目标。 概述 入门 像Kaldi一样,PyKaldi主要面向语音识别研究人员和专业人员。 人们需要利用Kaldi和OpenFst库提供
2023-02-21 22:06:26 1.2MB python wrapper numpy speech
1
CS229 机器学习 - 秋季 2014-15 使用脑电图对想象语音中的音节进行分类 预测:想象语音是指受试者想象在不移动任何肌肉或声音的情况下说出给定单词的过程。 理解想象语音的能力将从根本上改变我们与设备交互的方式。 我们想从想象的语音 EEG 信号中对音节“ba”、“ku”、“im”和“si”进行分类。 选择这些音节是因为它们不包含语义含义,因此将对想象的语音进行分类,而不是对想象的语音产生的语义贡献。 我们的模型能够成功地从 EEG 数据中对音节对进行分类,准确率超过 90%。 数据收集:我们利用 Takako Fujioka 教授在音乐与声学计算机研究中心 (CCRMA) 的 EEG 实验室创建了自己的数据集。 在我们的实验中,受试者想象根据预先确定的音频线索说出四个音节“ba / ku”和“im / si”,同时脑电图记录他们的脑电波活动。 音频提示对应于高音或低音。 嘟嘟
2023-02-17 18:45:53 42MB MATLAB
1
测试可用,webgl文字转语音插件
2023-01-04 17:23:23 273KB unity 文字转语音
1
提取均值信号特征的matlab代码两个扬声器的基于 LSTM/BLSTM 的 PIT 在多通话者混合语音分离和识别方面取得的进展,通常被称为“鸡尾酒会问题”,并没有那么令人印象深刻。 尽管人类听众可以很容易地感知混合声音中的不同来源,但对于计算机来说,同样的任务似乎极其困难,尤其是当只有一个麦克风记录混合语音时。 1. 运行性能 注意:训练集和验证集包含通过从 WSJ0 集中随机选择说话者和话语生成的两个说话者混合,并以 -2.5 dB 和 2.5 dB 之间统一选择的各种信噪比 (SNR) 混合它们. 对于LSTM ,不同性别的混合音频结果如下: 对于BLSTM ,不同性别的混合音频结果如下: 从上面的结果可以看出,混合性别音频的分离效果优于同性音频,BLSTM 的性能优于 LSTM。 2. 评价标准 SDR:信号失真比 SAR:信号与伪像的比率 SIR:信号干扰比 STOI:短期客观可懂度测量 ESTOI:扩展的短期目标可懂度测量 PESQ:语音质量的感知评估 3. 依赖库 matlab(我的测试版:R2016b 64位) tensorflow(我的测试版本:1.4.0) anac
2022-12-21 11:33:49 5.37MB 系统开源
1
论文复习 语音识别论文综述·NLP·语音合成 年 纸 链接 2006/06 Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks 2015/06 Attention-Based Models for Speech Recognition 2015/08 Listen, Attend and Spell 2016/09 Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning 2017/07 Attention Is All You Need 2018/10 BERT: Pre-training of Deep Bidir
2022-12-13 14:09:23 863KB nlp speech speech-synthesis speech-recognition
1
语音语料库_part_1 TRAIN DR1 TIMIT contains a total of 6300 sentences, 10 sentences spoken by each of 630 speakers from 8 major dialect regions of the United States. Table 1 shows the number of speakers for the 8 dialect regions, broken down by sex. The percentages are given in parentheses. A speaker's dialect region is the geographical area of the U.S. where they lived during their childhood years.
2022-12-08 11:28:48 40.05MB 音频数据集
1