用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1
多功能语音控制小车.doc
2022-07-03 11:04:14 220KB 技术资料
单片机控制语音芯片的录放音系统的设计资料.doc
2022-07-03 11:03:56 8.07MB 技术资料
ISD2500系列单片语音录放电路资料.doc
2022-07-03 11:03:42 791KB 技术资料
ISD2500系列单片语音录放电路.doc
2022-07-03 11:03:41 755KB 技术资料
国际电信联盟的无源音质客观评价标准P.563算法源代码,以及技术说明文档,代码直接能编译使用,测试确实对音质有比较明显的评分差异,直接输出MOS分
1
CTI电话语音应答系统-VB编程毕业设计.doc
2022-07-02 14:06:26 368KB 课程设计
基于STM32的DAC播放源码,欢迎下载
2022-07-02 09:45:14 542KB DAC STM32 语音播放
1
VB与ACCESS实现电话语音应答系统
2022-07-02 09:05:18 7.53MB vb