最全的kaldi学习指导文档,目前是最新版本。 kaldi是一个开源的语音识别工具箱,是基于c++编写的,可以在windows和unix平台上编译。 1)与文本无关的LVCSR系统; 2)基于FST的训练和解码; 3)最大似然训练; 4)各种各样的线性和映射变换; 5)有VTLN,SAT的脚本;
2021-12-02 20:04:34 2.85MB 语音识别 人工智能 kaldi ubuntu
1
在语音识别中,卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比.在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强.
1
使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现的中文语音识别系统。
2021-12-02 12:19:38 6.5MB 中文语音识别系统
1
在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。通过ATLAB平台建立一个GUI界面,接着输入数字语音信号,对输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。 所制作GUI界面,制作成一个九宫格界面,点击对应0-9十个数字,可以播放对应语音,并且显示路径,波形,和结果的文本输出。可以进行二次改造成,属于一串数字,如数字正确,则触发另一个界面GUI,实现发射端和接收端的对话。
2021-12-01 19:43:16 7.93MB matlab 数字语音识别 九宫格数字识别
1
基于百度sdk的语音识别 C++版本 VS2015开发。百度官网不提供windows vc的demo。自己继承了相关类库的windows版本。release亲测可用。相关文档已百度官方为准。
2021-12-01 14:54:57 23.22MB voice2 语音识别 百度sdk dem
1
ASRT:基于深度学习的中文语音识别系统 ASRT是一个基于深度学习的中文语音识别系统,如果您觉得喜欢,请点一个“ Star”吧〜 自述语言|中文版| | |||| 如果程序运行期间或使用中有什么问题,可以及时在issue中提出来,我将尽快进行响应。本项目作者交流QQ群: 894112051 提问前请仔细查看,以及避免重复提问 以下问题AI柠檬博主和群友可能会拒绝回答,包括但不限于: 询问已经写在ASRT语音识别项目文档和问题上解决过的已知重复问题。 找不到重点,不知所云的问题,但不声明任何其他信息。 跟ASRT项目没有直接相关的问题 “伸手党”类的问题 请注意,开发者并没有义务回复您的问
2021-12-01 10:00:16 6.5MB python tensorflow keras cnn
1
voicebox语音信号处理工具箱 工具箱内容 音频文件输入/输出 读写WAV和其他语音文件格式 频率标度 在Hz,Mel,Erb和MIDI频率刻度之间转换 傅立叶/ DCT / Hartley变换 各种相关的变换 随机数和概率分布 生成随机向量和噪声信号 矢量距离 计算矢量列表之间的距离 言语分析 有源电平估计,频谱图 LPC语音分析 线性预测编码例程 语音合成 文本到语音合成和声门波形模型 语音增强 光谱噪声减法 语音编码 PCM编码,矢量量化 语音识别 用于识别的前端处理 信号处理 其他信号处理功能 信息论 熵计算和符号代码的例程 计算机视觉 3D旋转的例程 打印和显示功能 用于打印和图形的实用程序 语音箱参数和系统接口 获取或设置VOICEBOX和WINDOWS系统参数 效用函数 其他实用功能 音频文件输入/输出
1
一本PDF书籍。一本PDF书籍。一本PDF书籍。一本PDF书籍。一本PDF书籍。
2021-11-30 18:43:12 1.19MB 语音识别
1
基于matlab的语音识别源代码,提取声音MFCC系数进行的语音识别
2021-11-30 16:49:08 554KB 语音识别 matlab
1
使用隐马尔可夫模型进行数字语音信号处理的理论算法
2021-11-30 15:19:41 91KB HMM 语音识别 数字语音
1