Android平台使用PocketSphinx做离线语音识别,小范围语音99%识别率.zip
2022-07-04 09:10:52 651KB Android
基于python的中文语音识别系统. 包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。 声学模型 - acoustic_model文件夹下 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在gru_ctc_am.py中,包括: 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型cnn_ctc_am.py,与GRU相比,对网络结构进行了稍加改造。 完全使用DFCNN框架搭建声学模型,稍加改动,将部分卷积层改为inception,使用时频图作为输入,cnn_with_fbank.py。 新增使用pluse版数据集的模型,cnn_with_full.py,建议直接训练这个模型。 语言模型 - language_model文件夹下 新增基于CBHG结构的语言模型language_model\CBHG_lm.py,该模型之前用于谷歌声音合成,移植到该项目中作为基于神经网络的语言模型。 数据集 增加stc、primewords、Aishell、thchs30四个数据集,整理为相同格式,放于acoustic_model\data中,调用四个数据集的脚本
2022-07-03 21:08:28 34.52MB 人工智能 语音识别 python 深度学习
用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1
人工智能 ——语音识别技术 人工智能-语音识别技术全文共17页,当前为第1页。 什么是语音识别技术? 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。 人工智能-语音识别技术全文共17页,当前为第2页。 两款语音机器人: Siri Cortana 人工智能-语音识别技术全文共17页,当前为第3页。 语音识别的实现(1) 首先,我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。 人工智能-语音识别技术全文共17页,当前为第4页。 语音识别的实现(2) 在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续
2022-07-01 13:03:01 1.04MB 文档资料
该文件为语音识别课程博客对应的思维导图,建议使用知犀思维导图打开。
2022-07-01 09:10:02 75KB 语音识别 人工智能 思维导图
1
YS-LDV7语音识别模块原理图(20190215).doc
2022-07-01 09:07:54 115KB YS-LDV7语音识别模块原理图
语音识别V2.zip语音识别V2.zip
2022-07-01 09:07:53 53.16MB 语音识别V2.zip
4.8 在线识别 (@冒顿翻译) 在kaldi 的工具集里有好几个程序可以用于在线识别。这些程序都位在 src/onlinebin文件夹里,他们是由src/online文件夹里的文件编译而成(你现在可以 用make ext 命令进行编译).这些程序大多还需要tools文件夹中的portaudio 库文 件支持, portaudio 库文件可以使用tools文件夹中的相应脚本文件下载安装。 这些程序罗列如下: online-gmm-decode-faster: 从麦克风中读取语音,并将识别结果输出到控制台 online-wav-gmm-decode-faster:读取wav文件列表中的语音,并将识别结果以指 定格式输出。 online-server-gmm-decode-faster:从UDP连接数据中获取语音MFCC向量,并将 识别结果打印到控制台。 online-net-client :从麦克风录音,并将它转换成特征向量,并通过UDP连接发 送给online-server-gmm-decode-faster
2022-06-30 11:10:44 2.85MB 语音识别 人工智能 kaldi ubuntu
1
灵云的语音识别API,使用python3语言编写,在该文件中同时给出了测试样例,只需将对应16Khz/单通道/小尾端的原始音频数据路劲替换进去即可。
2022-06-30 01:18:32 3KB a's'
1
语音识别】基于高斯混合模型(GMM)的语音识别matlab源码.md
2022-06-28 17:31:05 7KB 算法 源码
1