Maix-SpeechRecognizer:使用Maixduino框架和PlatfomIO开发的语音识别或唤醒单词检测演示,可在Sipeed的Maix开发板上的K210 MCU上运行
2021-10-17 22:46:20 17KB arduino ai speech-recognition wakeword
1
DeepSpeech-pytorch 使用DeepSpeech模型的PyTorch中的端到端语音识别模型 怎么跑 首先,安装依赖项 # clone project git clone https://github.com/jiwidi/DeepSpeech-pytorch # install project cd DeepSpeech-pytorch pip install -e . pip install -r requirements.txt 准备运行! 执行: python train . py #Will run with default parameters and donwload the datasets in the local directory Tensorboard日志将保存在runs/文件夹下 该模型 该模型是DeepSpeech 2的从在人的变化
1
matlab中的plp代码使用 DNN 进行语音活动检测的特征和架构研究 该工具包提供了威斯康星大学麦迪逊分校电气和计算机工程系硕士论文(使用深度神经网络进行语音活动检测的特征和架构研究)中使用的代码。 介绍 该工具包基于以下工作:[1]。 该工具包的附加值是特征分析部分。 本工具包中的 SAD 遵循以下步骤: 声学特征提取 使用Python从语音中提取以下特征: MRCG MFCC 全球气候变化委员会 RASTA-PLP(在 Matlab 中从 Python 中提取) AMS 能量 + 过零(在 Matlab 中从 Python 中提取) 多分辨率 MFCC - 为本文创建的新功能 多分辨率 MFCC (MR-MFCC): 此功能背后的主要思想是对语音信号的多分辨率频谱表示进行编码,以捕获本地信息和频谱时间上下文。 此功能的灵感来自多分辨率耳蜗图 (MRCG),发现它对 SAD 有益,但遵循计算复杂度较低的提取方案。 MR-MFCC 分三步提取: 从 25ms 窗口计算 40 维 MFCC 从长度为 200ms 的窗口计算 MFCC 将结果连接到一个向量以生成具有 80 维的特征。
2021-10-10 17:57:31 17.34MB 系统开源
1
用于单通道语音增强的深噪声抑制模型的比较评估 考虑到视频会议系统和流传输工具的日益增加的使用,具有计算有效和有效的语音增强器变得有利和必要。 Microsoft DNS挑战极大地促进了该领域的创新,但仍有很大的改进空间。 这项工作比较了此挑战中提出的两种用于语音增强的深度学习模型:NSNet2和双信号转换LSTM网络(DTLN)。 在基于混响时间RT60和信噪比(SNR)规范的两种对比条件下,分别使用两个数据集和三种不同的以语音质量为中心的措施对这两种模型进行了比较:语音质量的感知评估(PESQ),深噪声抑制平均意见分数(DNSMOS)和虚拟语音质量目标听众(ViSQOL)。 概述 这是“单声道语音增强的深噪声抑制模型的比较评估”研究报告的伴随代码,该研究由EstebanGómez进行,该研究是巴塞罗那Pompeu Fabra大学的声音和音乐计算硕士学位的学生,是音乐信息的一部分检索过程。
2021-10-05 17:22:16 109.86MB JupyterNotebook
1
TTS 文本到语音。 TTS (TXT) 从字符串 TXT 合成语音,然后说出来。 音频格式默认为单声道、16 位、16k Hz。 WAV = TTS(TXT) 不发声但输出到变量 WAV。 TTS(TXT,VOICE) 使用特定的语音。 使用 TTS('','List') 查看可用语音列表。 默认是第一个声音。 TTS(...,PACE) 将语音速度设置为 PACE。 PACE 范围从 -10(最慢)到 10(最快)。 默认 0。 TTS(...,FS) 将语音的采样率设置为 FS kHz。 FS 必须是以下之一:8000、11025、12000、16000、22050、24000、32000、44100、48000。默认为 16。 此功能需要 Mirosoft Win32 Speech API (SAPI)。 例子: % 朗读课文; tts('我会说话。'); % 列出可用的声音; t
2021-10-04 20:47:11 2KB matlab
1
【导读】斯坦福大学教授 Dan Jurafsky 与科罗拉多大学波德分校 James H. Martin 教授共同撰写的《Speech and Language Processing》,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。本书不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,对于自然语言处理相关领域的研究人员和技术人员也是不可或缺的权威参考书。
2021-10-01 21:01:08 18.21MB 自然语言 经典教材
1
【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering...-附件资源
2021-09-30 09:23:48 23B
1
深语音 使用来自Deepspeech的预训练模型将语音演示为文本 pyaudio的Windows问题 pip install pipwin pipwin install pyaudio
2021-09-28 16:58:08 22.4MB Python
1
说明: 完成欠定盲语音分离,源信号为3路输入,有2路麦克风,用c实现。 (Underdetermined blind speech separation is completed, the source signal is 3 inputs, 2 mic, with c achieve.)
2021-09-27 09:05:32 3.61MB 盲源分离C++ blind 欠定信号 blindspeech
Windows Speech SDK+VS2010 TTS文字转语音源代码(实现播放停止功能)Windows Speech SDK+VS2010 TTS文字转语音源代码(实现播放停止功能)
2021-09-25 21:48:11 69.53MB Windows Speech  VS2010 TTS文字转语音
1