论文复习 语音识别论文综述·NLP·语音合成 年 纸 链接 2006/06 Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks 2015/06 Attention-Based Models for Speech Recognition 2015/08 Listen, Attend and Spell 2016/09 Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning 2017/07 Attention Is All You Need 2018/10 BERT: Pre-training of Deep Bidir
2022-12-13 14:09:23 863KB nlp speech speech-synthesis speech-recognition
1
能过实现基本的语音识别功能,内部代码含有注释,适合初学者,对入门有一定帮助。
2022-11-13 20:29:13 86KB speech recognition
1
激光 闪电自动语音识别 一个基于PyTorch-Lightning的MIT许可ASR研究库,用于开发端到端ASR模型。 介绍 是用于高性能AI研究的轻量级包装器。 PyTorch非常易于使用,可以构建复杂的AI模型。 但是一旦研究变得复杂,并且诸如多GPU训练,16位精度和TPU训练之类的东西混在一起,用户很可能会引入错误。 PyTorch Lightning恰好解决了这个问题。 Lightning构造了您的PyTorch代码,因此它可以抽象出培训的详细信息。 这使AI研究具有可扩展性,并且可以快速迭代。 该项目是使用PyTorch Lightning实现asr项目的示例。 在这个项目中,我训练了一个模型,该模型包括一个带有联合CTC注意的构象编码器+ LSTM解码器。 所述LASR装置升ighthning一个utomatic小号peechřecognition。 我希望这可以成为那些研究
1
用Python和Flask进行语音识别 于2021年2月22日对语音识别应用进行编码以进行机器学习。 此应用程序是Web低音机器学习系统,可将wav格式的口语单词转换为文本格式
2022-10-22 20:14:06 419KB HTML
1
Speech Recognition System 语音识别插件,不需要互联网连接; 语音识别质量高、速度快; 支持24种语言; 跨平台(Windows, iOS, Android, macOS, Linux); 易于整合。支持语言: 英语、印度英语、中国、俄罗斯、法国、德国、西班牙、葡萄牙、希腊、土耳其、越南、意大利、荷兰、加泰罗尼亚、阿拉伯语、波斯语、菲律宾、哈萨克斯坦、瑞典、日本、乌克兰、捷克、印地语、波兰
2022-08-04 16:05:23 84.31MB unity3d SpeechRecogniti 离线语言识别
1
Kaldi GStreamer服务器 这是基于Kaldi工具包和GStreamer框架并以Python实现的实时全双工实时语音识别服务器。 广告 塔林工业大学正在寻找一名从事语音识别的博士生,重点是轻度代码转换的语音(例如,芬兰语包含很多英语技术术语)。 。 注意! 该职位仍然开放! 特征 基于websocket的全双工通信:语音进入,出现部分假设(考虑Android的语音输入) 高度可扩展:服务器由主组件和工作程序组成; 每个并发识别会话需要一名工作人员; 可以独立于远程计算机上的主机启动和停止工作程序 可以进行语音分割,即,基于静音,将长语音信号分为较短的片段 支持任意长的语音输入(例如,您可以将实时语音流式传输到其中) 支持Kaldi的GMM​​和“在线DNN”模型 支持使用大型语言模型对识别格进行记录 支持在请求之间保留声学模型自适应状态 支持无限制的音频编解码器集(实际上
2022-07-27 16:06:16 233.98MB speech-recognition Python
1
用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1
作者:Microsoft Research AI首席科学家 - 邓力 俞栋 This book provides a comprehensive overview of the recent advancement in the field of automatic speech recognition with a focus on deep learning models including deep neural networks and many of their variants. This is the first automatic speech recognition book dedicated to the deep learning approach. In addition to the rigorous mathematical treatment of the subject, the book also presents insights and theoretical foundation of a series of highly successful deep learning models.
2022-06-29 23:49:52 4.78MB deep learnin speech recog
1
深度学习在人工智能领域取得了巨大突破。 当前,时域语音识别的鲁棒性较差,频域语音识别的频谱图复杂度也需要大大降低。 因此,本文提出了一种基于R-CNN的快速目标检测方法,用于在时域和频域中识别用于语音识别的频谱图。 提出的方法仅关注频谱图的局部感兴趣区域(明显的声纹),该区域过滤高频噪声以提高性能。 实验结果表明,所提出的方法比现有方法具有更高的准确性和鲁棒性,并且在嘈杂的工厂中可以表现良好。
2022-05-16 11:54:08 515KB speech recognition spectrogram target
1
speech_recognition:适用于Python的语音识别模块,支持在线和离线的多个引擎和API
2022-05-15 21:31:48 119.55MB audio python speech-recognition speech-to-text
1