Kaggle语音识别 这是针对的Kaggle竞赛的项目,目的是为简单的语音命令构建语音检测器。 该模型是使用连接器时间分类(CTC)成本的卷积残差,向后LSTM网络,由TensorFlow编写。 首先将音频波文件转换为滤波器组频谱图。 CNN层从频谱图输入中提取分层特征,而LSTM层的作用类似于编码器/解码器,对CNN特征的序列进行编码,并输出字符作为输出。 LSTM编码器/解码器非常动态。 取决于训练词汇,可以用整个单词,音节或仅音素的信息对发出的字符进行编码。 完全连接的层会压缩表示形式,并进一步将字符与单词解耦。 该项目旨在调试和可视化友好。 提供这些界面以权重和激活,登录TensorBoard并记录示例单词的学习,这些示例单词显示了如何在训练中学习角色和决策边界。 安装和使用: 先决条件:Python 3.5,TensorFlow 1.4; 或Python 3.6,Tens
2022-01-06 13:45:16 1.93MB tensorflow kaggle lstm speech-recognition
1
语音识别系统 适用于 CMU 课程 11756/18799d/J1799d THEORY AND PRACTICE OF SPEECH RECOGNITION SYSTEMS 作者 Shitao Weng : Zhi Liu : 基于 HMM 的顺序数字识别系统。
2021-12-13 12:34:20 257KB C++
1
Chrome 71更新 由于用户滥用了语音合成API(ADS,虚假系统警告),因此Google决定在未由用户手势(点击,触摸等)触发的情况下删除该API在浏览器中的使用。 这意味着,例如,如果artyom.say("Hello")未包装在用户事件中,则无法调用它。 因此,在每次加载页面时,用户将需要在每个页面上至少单击一次以允许在网站中使用该API,否则将引发以下异常:“ [Deprecation] speechSynthesis.speak()是未经用户激活的自M71以来,自2018年12月左右起不再允许使用。有关更多详细信息,请参见 ” 有关更多信息,请访问Bug或。 要绕过此错误,用户将需要与网站进行至少一次手动交互,例如单击一次: < button id =" btn " > Allow Voice Synthesis </ button > < script src ="
1
卡尔迪戈普 该项目使用Kaldi计算基于GMM的GOP(发音优度)。 有关基于DNN的实现的说明 此实现是基于GMM的。 对于基于DNN的实现,请检查Kaldi的官方存储库: GOP-DNN的性能应该比GOP-GMM好得多。 如何建造 ./build.sh 运行示例 cd egs/gop-compute ./run.sh 理论 在传统的基于GMM-HMM的系统中,GOP最早是在(Witt等,2000)中提出的。 它被定义为后验的持续时间标准化对数: $$ GOP(p)= \ frac {1} {t_e-t_s + 1} \ log p(p | \ mathbf o)$$ 其中$ \ mathbf o $是输入观测值,$ p $是规范电话,$ t_s,t_e $是开始和结束帧索引。 假设对于任何$ q_i,q_j $,$ p(q_i)\ p(q_j)$,我们有: $$ \ lo
2021-12-06 13:20:45 15KB speech-recognition kaldi C++
1
DNN-Speech-Recognition - 基于深度神经网络的自动语音识别器,首先搭建几个简单网络进行尝试,然后根据测试结果来构建自己的深度神经网络模型。可用于机器学习/深度学习/自然语言处理等方面课程的课程项目。数据集是LibriSpeech的部分数据,不包含在此压缩包中,可以自行下载。
2021-12-02 18:44:56 1.8MB DNN ASR
1
unity Speech Recognition System
2021-11-21 14:07:45 48.25MB unity
1
FastWER 用于快速字/字符错误率 (WER/CER) 计算的 PyPI 包 快速(cpp 实现) 句子级和语料库级 WER/CER 分数 安装 pip install pybind11 fastwer 例子 import fastwer hypo = [ 'This is an example .' , 'This is another example .' ] ref = [ 'This is the example :)' , 'That is the example .' ] # Corpus-Level WER: 40.0 fastwer . score ( hypo , ref ) # Corpus-Level CER: 25.5814 fastwer . score ( hypo , ref , char_level = True ) # Sentence-Leve
1
语音识别通过CNN 孤立词语音识别,复旦大学计算机科学技术学院数字信号处理期末项目 介绍 此仓库实现了一个强大的语音识别系统,该系统可以识别20个单独的单词,例如“语音”,“北京”,“文件”等。它利用从原始语音中提取的梅尔频谱特征,将频谱视为图片,卷积神经网络被用来对它们进行分类。 详细中文介绍请参考课程报告。 怎么玩 您需要一个支持CUDA(因为推理过程需要GPU)和flask的pytorch(版本> = 0.4)的python环境。 强烈建议使用Anaconda设置了环境,了解更多详情,请参考[]和[ ](适用于中国大陆用户的方便,请参见[])。 设置环境后,您可以通过键入以下内容轻松启动识别服务 python audio_server.py 进入您的命令行。 该命令将在端口22339上启动Web服务,因此您可以通过localhost:22339访问它 通过单击按钮,您的声音将被
2021-11-16 15:13:15 144.01MB JupyterNotebook
1
DeepSpeech剧本 使用DeepSpeech训练语音识别模型的速成班。 快速链接 从这里开始。 本部分将设定您对DeepSpeech手册可以实现的目标的期望,以及开始训练自己的语音识别模型所需的先决条件。 了解了DeepSpeech Playbook可以实现的功能后,本节将概述DeepSpeech本身,其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。 之前,你可以训练一个模型,你需要收集和格式化数据的语料库。 本节概述了DeepSpeech所需的数据格式,并逐步介绍了从Common Voice准备数据集的示例。 如果您正在训练使用与英语不同的字母(例如带有变音符号的语言)的模型,那么您将需要修改alphabet.txt文件。 了解得分手的工作,以及如何建立自己的得分手。 了解DeepSpeech的声学模型和语言模型之间的差异,以及它们如何组合以提供端到端语音识别。 本节
1
深度学习的好书。语言识别
2021-11-05 20:21:01 7.53MB 深度学习
1