激光 闪电自动语音识别 一个基于PyTorch-Lightning的MIT许可ASR研究库,用于开发端到端ASR模型。 介绍 是用于高性能AI研究的轻量级包装器。 PyTorch非常易于使用,可以构建复杂的AI模型。 但是一旦研究变得复杂,并且诸如多GPU训练,16位精度和TPU训练之类的东西混在一起,用户很可能会引入错误。 PyTorch Lightning恰好解决了这个问题。 Lightning构造了您的PyTorch代码,因此它可以抽象出培训的详细信息。 这使AI研究具有可扩展性,并且可以快速迭代。 该项目是使用PyTorch Lightning实现asr项目的示例。 在这个项目中,我训练了一个模型,该模型包括一个带有联合CTC注意的构象编码器+ LSTM解码器。 所述LASR装置升ighthning一个utomatic小号peechřecognition。 我希望这可以成为那些研究
1
lpc matlab代码语音压缩 Runnig代码 按原样下载所有文件,然后在Matlab上运行.mlapp文件。 线性预测编码 将人类语音建模为过去样本的线性函数。 在MATLAB App的帮助下创建了UI。
2022-10-28 14:18:08 2.1MB 系统开源
1
Speech Enhancement Techniques for Digital Hearing Aids
2022-10-27 13:27:24 11.98MB Speech Digita Signal
1
消费税 再现:样式标记:端到端语音合成中的无监督样式建模,控制和传输( ) Python和工具包版本 Python: '3.5.2' numpy: '1.13.1' tensorflow: '1.4' 样本和预训练模型 在可以找到样本,进行了两种实验: 参考音频条件: BZ_440K.wav是在Blizzard2013上训练的模型的推理结果,为440K步长(batch_size = 16),调节的参考音频是从其测试集中选取的。 LJ_448K.wav是在LJ_Speech上训练的模型的另一个推论结果,为448K步长(batch_size = 16),调节的参考音频也从其测试集中选取。 消费税的组合: normal.wav和slow.wav是在LJ_Speech上训练的模型的两个推断结果,两者之间的区别是通过选择不同的样式标记进行样式嵌入。 high.w
1
用Python和Flask进行语音识别 于2021年2月22日对语音识别应用进行编码以进行机器学习。 此应用程序是Web低音机器学习系统,可将wav格式的口语单词转换为文本格式
2022-10-22 20:14:06 419KB HTML
1
【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering...-附件资源
2022-10-13 10:44:35 106B
1
中文阅读软件必需的语音包。 相比微软语音包中的Sam发音,它可以朗读中文,虽然也很机械。
2022-09-27 16:47:10 1.44MB Simpchinese Speech Package 中文
1
Text to Speech with delphi
2022-09-21 13:01:32 9KB delphi_tts speech_to_text tts
MATLAB結合HTK的特徵擷取應用SVM函式 的實際範例 並且可達到即時錄音辨識 輸出 前三個語音辨識的機率
Speech2Text 在这里使用ffmpeg / flac / Google和ruby的功能是一个简单的界面,可以将语音转换为文本。 在本文的帮助下,使用来自Google的新的未记录语音API: / 我们能够在Ruby中提供一个非常简单的API,以将简单的音频解码为文本。 Google的API尚未公开,因此可能会更改。 它似乎也非常脆弱,因为它多次返回500,因此该库具有内置的重试代码-对于较大的音频文件,可能会在检索成功结果之前返回10多个失败… 似乎API也只喜欢较小的音频文件,因此有一个内置的分块器,使我们可以将音频分成较小的块。 安装 将此行添加到您的应用程序的Gemfile中: gem 'speech2text' 然后执行: $ bundle 或将其自己安装为: $ gem install speech2text 您还必须在本地计算机上安装ffmpeg
2022-09-07 11:05:43 1.88MB Ruby
1