语音识别通过CNN
孤立词语音识别,复旦大学计算机科学技术学院数字信号处理期末项目
介绍
此仓库实现了一个强大的语音识别系统,该系统可以识别20个单独的单词,例如“语音”,“北京”,“文件”等。它利用从原始语音中提取的梅尔频谱特征,将频谱视为图片,卷积神经网络被用来对它们进行分类。
详细中文介绍请参考课程报告。
怎么玩
您需要一个支持CUDA(因为推理过程需要GPU)和flask的pytorch(版本> = 0.4)的python环境。 强烈建议使用Anaconda设置了环境,了解更多详情,请参考[]和[ ](适用于中国大陆用户的方便,请参见[])。
设置环境后,您可以通过键入以下内容轻松启动识别服务
python audio_server.py
进入您的命令行。 该命令将在端口22339上启动Web服务,因此您可以通过localhost:22339访问它
通过单击按钮,您的声音将被
1