汉语连续语音识别的语速自适应算法.pdf
1
分量和背景噪音的估值,为参考点判决阈值的选取做准备。接着检出语音信号大致的起止点作为实际起止点的参考点。然后利用汉语语音功率谱的特点,检测出实际的语音起止点。最
2022-08-03 22:00:45 508KB 算法 语音识别
1
该程序能够实现语音信号处理中的短时倒谱分析,包括复倒谱、倒谱、Mel倒谱系数MFCC、lpc倒谱、lpcMel倒谱系数,线性预测误差序列的倒谱以及对应的倒谱距离。并在程序中指明了这些参数的用途,给出了算法程序仿真和对应的结果图。
2022-05-26 09:06:22 2.4MB MATLAB 短时倒谱分析
1
该程序提供了计算连续语音信号倒谱参数的方法,参数包括:复倒谱、实倒谱(倒谱)、MFCC倒谱、以及对应的倒谱距离。其中,倒谱距离包括对数频谱距离、倒谱距离和MFCC倒谱距离。程序每一部分都有对应的程序,只要编译就可以查看图形。其中还简单分析了造成处理性能差异的原因,并提供了后续解决的思路。以及对每个参数都阐明了其基本用途。
2022-05-22 19:04:55 49KB 语音处理 倒谱参数
1
基于HTK 的语音识别例子,包含了指导文件,操作说明等等
2021-12-15 15:09:54 8.84MB HTK 语音识别 例子
1
在语音识别中,卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比.在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强.
1
近年来,随着社会生活水平的不断提高,人们对机器智能人声识别的要求越来越高。高斯混合—隐马尔可夫模型(Gaussian of mixture-hidden Markov model, GMM-HMM)是说话人识别研究领域中最重要的模型。由于该模型对大语音数据的建模能力不是很好,对噪声的顽健性也比较差,模型的发展遇到了瓶颈。为了解决该问题,研究者开始关注深度学习技术。引入了CNN深度学习模型研究连续语音说话人识别问题,并提出了CNN连续说话人识别(continuous speaker recognition of convolutional neural network, CSR-CNN)算法。模型提取固定长度、符合语序的语音片段,形成时间线上的有序语谱图,通过CNN提取特征序列,经过奖惩函数对特征序列组合进行连续测量。实验结果表明,CSR-CNN算法在连续—片段说话人识别领域取得了比GMM-HMM更好的识别效果。
2021-04-21 20:40:30 1.29MB 连续语音 语谱图 GMM-HMM 深度学习
1
这是一篇比较详细的说明Sphinx语音识别系统的文章,给初级学习者参考。我开始学习时觉得很有帮助。
2021-03-14 21:35:29 1.17MB Sphinx 中文说明书
1