搜索【speech-recognition】的结果

kaggle_speech_recognition:使用TensorFlow编写的Conv-LSTM-CTC语音识别网络（端到端）-源码

Kaggle语音识别这是针对的Kaggle竞赛的项目，目的是为简单的语音命令构建语音检测器。该模型是使用连接器时间分类（CTC）成本的卷积残差，向后LSTM网络，由TensorFlow编写。首先将音频波文件转换为滤波器组频谱图。 CNN层从频谱图输入中提取分层特征，而LSTM层的作用类似于编码器/解码器，对CNN特征的序列进行编码，并输出字符作为输出。 LSTM编码器/解码器非常动态。取决于训练词汇，可以用整个单词，音节或仅音素的信息对发出的字符进行编码。完全连接的层会压缩表示形式，并进一步将字符与单词解耦。该项目旨在调试和可视化友好。提供这些界面以权重和激活，登录TensorBoard并记录示例单词的学习，这些示例单词显示了如何在训练中学习角色和决策边界。安装和使用：先决条件：Python 3.5，TensorFlow 1.4; 或Python 3.6，Tens

2022-01-06 13:45:16 1.93MB tensorflow kaggle lstm speech-recognition

1

Speech-Recognition-System-of-Spoken-Digits-源码

语音识别系统适用于 CMU 课程 11756/18799d/J1799d THEORY AND PRACTICE OF SPEECH RECOGNITION SYSTEMS 作者 Shitao Weng ： Zhi Liu ：基于 HMM 的顺序数字识别系统。

2021-12-13 12:34:20 257KB C++

1

artyom.js:语音控制-语音命令-语音识别和语音合成JavaScript库。在您的网站内使用Google Chrome创建您自己的siri，google now或cortana-源码

Chrome 71更新由于用户滥用了语音合成API（ADS，虚假系统警告），因此Google决定在未由用户手势（点击，触摸等）触发的情况下删除该API在浏览器中的使用。这意味着，例如，如果artyom.say("Hello")未包装在用户事件中，则无法调用它。因此，在每次加载页面时，用户将需要在每个页面上至少单击一次以允许在网站中使用该API，否则将引发以下异常：“ [Deprecation] speechSynthesis.speak（）是未经用户激活的自M71以来，自2018年12月左右起不再允许使用。有关更多详细信息，请参见 ” 有关更多信息，请访问Bug或。要绕过此错误，用户将需要与网站进行至少一次手动交互，例如单击一次： < button id =" btn " > Allow Voice Synthesis </ button > < script src ="

2021-12-08 22:40:38 362KB recognition voice-commands speech-synthesis speech-recognition

1

kaldi-gop:计算基于GMM的发音善度（GOP）。基于卡尔迪-源码

卡尔迪戈普该项目使用Kaldi计算基于GMM的GOP（发音优度）。有关基于DNN的实现的说明此实现是基于GMM的。对于基于DNN的实现，请检查Kaldi的官方存储库： GOP-DNN的性能应该比GOP-GMM好得多。如何建造 ./build.sh 运行示例 cd egs/gop-compute ./run.sh 理论在传统的基于GMM-HMM的系统中，GOP最早是在（Witt等，2000）中提出的。它被定义为后验的持续时间标准化对数： $$ GOP（p）= \ frac {1} {t_e-t_s + 1} \ log p（p | \ mathbf o）$$ 其中$ \ mathbf o $是输入观测值，$ p $是规范电话，$ t_s，t_e $是开始和结束帧索引。假设对于任何$ q_i，q_j $，$ p（q_i）\ p（q_j）$，我们有： $$ \ lo

2021-12-06 13:20:45 15KB speech-recognition kaldi C++

1

DNN-Speech-Recognition.zip

DNN-Speech-Recognition - 基于深度神经网络的自动语音识别器，首先搭建几个简单网络进行尝试，然后根据测试结果来构建自己的深度神经网络模型。可用于机器学习/深度学习/自然语言处理等方面课程的课程项目。数据集是LibriSpeech的部分数据，不包含在此压缩包中，可以自行下载。

2021-12-02 18:44:56 1.8MB DNN ASR

1

Speech Recognition System 1.0.4.rar

unity Speech Recognition System

2021-11-21 14:07:45 48.25MB unity

1

fastwer:用于快速字字符错误率 (WERCER) 计算的 PyPI 包-源码

FastWER 用于快速字/字符错误率 (WER/CER) 计算的 PyPI 包快速（cpp 实现）句子级和语料库级 WER/CER 分数安装 pip install pybind11 fastwer 例子 import fastwer hypo = [ 'This is an example .' , 'This is another example .' ] ref = [ 'This is the example :)' , 'That is the example .' ] # Corpus-Level WER: 40.0 fastwer . score ( hypo , ref ) # Corpus-Level CER: 25.5814 fastwer . score ( hypo , ref , char_level = True ) # Sentence-Leve

2021-11-18 00:38:25 539KB natural-language-processing speech-recognition speech-processing spoken-language-processing

1

Speech-Recognition-Via-CNN:孤立词语音识别，复旦大学计算机科学技术学院数字信号处理期末项目-源码

语音识别通过CNN 孤立词语音识别，复旦大学计算机科学技术学院数字信号处理期末项目介绍此仓库实现了一个强大的语音识别系统，该系统可以识别20个单独的单词，例如“语音”，“北京”，“文件”等。它利用从原始语音中提取的梅尔频谱特征，将频谱视为图片，卷积神经网络被用来对它们进行分类。详细中文介绍请参考课程报告。怎么玩您需要一个支持CUDA（因为推理过程需要GPU）和flask的pytorch（版本> = 0.4）的python环境。强烈建议使用Anaconda设置了环境，了解更多详情，请参考[]和[ ]（适用于中国大陆用户的方便，请参见[]）。设置环境后，您可以通过键入以下内容轻松启动识别服务 python audio_server.py 进入您的命令行。该命令将在端口22339上启动Web服务，因此您可以通过localhost:22339访问它通过单击按钮，您的声音将被

2021-11-16 15:13:15 144.01MB JupyterNotebook

1

deepspeech-playbook：速成课程，用于使用DeepSpeech训练语音识别模型-源码

DeepSpeech剧本使用DeepSpeech训练语音识别模型的速成班。快速链接从这里开始。本部分将设定您对DeepSpeech手册可以实现的目标的期望，以及开始训练自己的语音识别模型所需的先决条件。了解了DeepSpeech Playbook可以实现的功能后，本节将概述DeepSpeech本身，其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。之前，你可以训练一个模型，你需要收集和格式化数据的语料库。本节概述了DeepSpeech所需的数据格式，并逐步介绍了从Common Voice准备数据集的示例。如果您正在训练使用与英语不同的字母（例如带有变音符号的语言）的模型，那么您将需要修改alphabet.txt文件。了解得分手的工作，以及如何建立自己的得分手。了解DeepSpeech的声学模型和语言模型之间的差异，以及它们如何组合以提供端到端语音识别。本节

2021-11-13 13:28:21 233KB speech-recognition language-model acoustic-model deepspeech

1

Automatic Speech Recognition.pdf

深度学习的好书。语言识别

2021-11-05 20:21:01 7.53MB 深度学习

1

个人信息

热门下载

最新下载

其他资源