上传者: 42119989
|
上传时间: 2022-01-06 13:45:16
|
文件大小: 1.93MB
|
文件类型: -
Kaggle语音识别
这是针对的Kaggle竞赛的项目,目的是为简单的语音命令构建语音检测器。
该模型是使用连接器时间分类(CTC)成本的卷积残差,向后LSTM网络,由TensorFlow编写。
首先将音频波文件转换为滤波器组频谱图。 CNN层从频谱图输入中提取分层特征,而LSTM层的作用类似于编码器/解码器,对CNN特征的序列进行编码,并输出字符作为输出。 LSTM编码器/解码器非常动态。 取决于训练词汇,可以用整个单词,音节或仅音素的信息对发出的字符进行编码。 完全连接的层会压缩表示形式,并进一步将字符与单词解耦。
该项目旨在调试和可视化友好。 提供这些界面以权重和激活,登录TensorBoard并记录示例单词的学习,这些示例单词显示了如何在训练中学习角色和决策边界。
安装和使用:
先决条件:Python 3.5,TensorFlow 1.4; 或Python 3.6,Tens