语音识别使机器可以通过识别和理解过程将语音信号转换为文本。 提取特征,预测最大可能性并生成输入语音信号的模型被认为是配置自动语音识别系统(ASR)的最重要步骤。 本文利用MATLAB建立了一个自动阿拉伯语语音识别系统,并从19位阿拉伯语母语使用者中记录了24个阿拉伯语单词Consonant-Vowel Consonant-Vowel Consonant-Vowel(CVCVCV),每个说话者说出同一单词3次(共1368个单词) )。 为了测试该系统,通过将语音信号划分为约0.25秒的帧和0.10秒的偏移,提取了39个特征。 在后端,通过将特征分成4到10之间的状态数来生成统计模型,每个状态具有8高斯分布。 数据具有48 k采样率和32位深度,并以wave文件格式单独保存。 该系统接受了语音丰富而均衡的阿拉伯语语音列表训练(10个发言人* 3次* 24个单词,总共720个单词),并使用另一个单词列表(24个词语* 9个发言人* 3次*,总共648个单词)进行了测试。 使用不同说话者的相似单词,系统获得了非常好的单词识别准确度结果,为92.92%,单词错误率(WER)为7.08%。
2022-03-08 20:54:24
549KB
行业研究
1