嘿,杰森!
自动语音识别推理
布莱斯·沃克(Brice Walker)
该项目在Keras / Tensorflow中构建了一个可扩展的,基于注意力的语音识别平台,以便在Edge上针对AI的Nvidia Jetson嵌入式计算平台进行推理。 自动语音识别的这种实际应用是受我以前在心理健康领域的职业启发的。 该项目开始了为构建实时治疗干预推断和反馈平台的旅程。 最终目的是构建一个工具,该工具可以为治疗师提供有关其干预效果的实时反馈,但是设备上的语音识别在移动,机器人或其他不希望基于云的深度学习的领域中具有许多应用。 该项目的重点是应用数据科学而不是学术研究。
最终的生产模型由一个深度神经网络组成,该网络具有3层扩张的卷积神经元,7层双向递归神经元(GRU细胞),一个单注意层和2层时间分布的密集神经元。 该模型利用了CTC损失函数,Adam优化器,批量归一化,扩张卷积,递归辍学,双向层和基于注意的机制。 该模型在Nvidia GTX1070(8G)GPU上进行了30个时期的训练,总训练时间约为6.5天。 该模型的预测与测试集中的地面真实转录的整体余弦相似度约为78%(验证集中为80%)
1