口语数字识别
:studio_microphone: LSTM语音数字识别
内容
概述
语音数字识别是一个隔离的单词识别系统,可转录0-9之间的各个语音号码。
数据集
使用免费语音数字数据集(FSDD)来训练该模型,该模型具有来自3位讲英语且带有重音的扬声器的1,500张录音。
该模型接受了1,470张唱片的训练,并在30张唱片上进行了测试。
模型与训练
该模型包括:
LSTM层
全连接层
损失函数:分类交叉熵
优化算法:亚当
模型在300个时代进行了训练。
改进和要添加的功能
数据集需要更多不同类型的发言人,包括不同性别和不同口音的人,以便该系统在世界范围内正常运行
模型本身可以改进
使用更好的培训/测试策略
具有使用自己的声音来测试模型的界面,使前端易于与模型进行交互
改善模型性能
基本上,这是我的实验,旨在了解如何构建仅检测语音数字的语音识别系统。
用法
python spoke_digit.py为了运行
1