MASR的V2版本训练Conformer模型文件,使用Fbank,Pytorch,训练数据为超大数据集,13000+小时。 源码地址:https://github.com/yeyupiaoling/MASR
2023-02-02 17:35:43 435.03MB pytorch asr 语音识别 wenetspeech
智能台灯文献标志码:A文章编号:1006—7167( 2019) 03—0056—05of Comput er and I nf ormat i on Engi
2023-02-02 14:46:10 2.7MB
1
数字化全双工语音会议电路、电子技术,开发板制作交流
1
语音识别 使用TensorFlow实现语音识别系统。 中篇文章的更多说明: : 二手图书馆 pip install tensorflow tensorflow_io 文件说明 test_load.py 加载Mozilla Common Voice的标签文件: : test_lstm.py 简单的LSTM模型可预测单词序列中的下一个单词。 它使用Mozilla Common Voice数据集标签文件。 test_trad.py Seq2Seq模型以与输入相同的语言翻译句子。 它使用Mozilla Common Voice数据集标签文件。 test_words.py 简单的LSTM模型可将音频转换为单词。 它使用语音命令数据集: : test_wordsFr.py 简单的LSTM模型可将音频转换为法语单词。 它使用此存储库中包含的自制数据集。 test_words_com
2023-01-30 10:23:58 13.83MB Python
1
设定时间后倒计时,每一时间点提示!适用于比赛演示等方面。
2023-01-30 10:06:10 1.08MB 计时
1
纯C#代码,采集语音并发送接收播放
2023-01-29 15:48:13 9.39MB C#语音
1
有监督语音识别综述--表格型 包含文章名,时间,方法,优缺点,与其他网络总结,实验结果
2023-01-29 00:32:20 19KB 语音识别 人工智能
1
更新:如果您正在寻找Wav2Lip, Lip2Wav 仅通过唇部动作即可产生高质量的语音。该代码是论文的一部分:在CVPR'20上发表的论文,学习个人说话风格以实现准确的语音合成。 | | 最近更新 发布了适用于所有扬声器的数据集和预训练模型! 已发布在LRW数据集上训练的多扬声器单词级Lip2Wav模型的预训练模型! (分支) 强调 在不受限制的情况下,仅通过嘴唇运动即可产生可理解的语音的第一项工作。 问题的序列到序列建模。 提供5个扬声器的数据集,其中包含100多个小时的视频数据! 提供了完整的培训代码和预训练的模型。 推理代码从预训练的模型生成结果。 还提供了用于计算论文中报告的指标的代码。 你也可能对此有兴趣: :party_popper:使用Wav2Lip进行口语同步的语音视频到任何语音: : 先决条件 Python 3.7.4 (此版本已通过代码测试) ffmpeg: sudo apt
2023-01-26 10:49:42 3.83MB Python
1
经过几十年的研究与发展,语音识别建立了以隐马尔可夫模型(Hidden Markov Models,HMM)为基础的框架。近几年,在HMM基础上深度神经网络(Deep Neural Network,DNN)的应用大幅度提升了语音识别系统的性能。DNN将每一帧语音及其前后的几帧语音拼接在一起作为网络的输入,从而利用语音序列中上下文的信息。DNN中每次输入的帧数是固定的,不同的窗长对最终的识别结果会有影响。递归神经网络(Recurrent neural network,RNN)通过递归来挖掘序列中的上下文相关信息,在一定程度上克服了DNN的缺点。但是RNN在训练中很容易出现梯度消失的问题,无法记忆长时信息。长短期记忆单元(Long Short-Term Memory,LSTM)通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传给特定的单元,从而避免了梯度消失的问题。本文对RNN及LSTM的基本原理进行了介绍,并且在TIMIT语音数据库上进行了实验。实验结果表明,LSTM型递归神经网络在语音识别上的可以取得较好的识别效果
2023-01-22 13:59:06 280KB LSTM
1
语音信号处理使用软件
2023-01-14 17:29:11 2.93MB 语音信号处理 voicebox
1