更新:如果您正在寻找Wav2Lip, Lip2Wav 仅通过唇部动作即可产生高质量的语音。该代码是论文的一部分:在CVPR'20上发表的论文,学习个人说话风格以实现准确的语音合成。 | | 最近更新 发布了适用于所有扬声器的数据集和预训练模型! 已发布在LRW数据集上训练的多扬声器单词级Lip2Wav模型的预训练模型! (分支) 强调 在不受限制的情况下,仅通过嘴唇运动即可产生可理解的语音的第一项工作。 问题的序列到序列建模。 提供5个扬声器的数据集,其中包含100多个小时的视频数据! 提供了完整的培训代码和预训练的模型。 推理代码从预训练的模型生成结果。 还提供了用于计算论文中报告的指标的代码。 你也可能对此有兴趣: :party_popper:使用Wav2Lip进行口语同步的语音视频到任何语音: : 先决条件 Python 3.7.4 (此版本已通过代码测试) ffmpeg: sudo apt
2023-01-26 10:49:42 3.83MB Python
1
经过几十年的研究与发展,语音识别建立了以隐马尔可夫模型(Hidden Markov Models,HMM)为基础的框架。近几年,在HMM基础上深度神经网络(Deep Neural Network,DNN)的应用大幅度提升了语音识别系统的性能。DNN将每一帧语音及其前后的几帧语音拼接在一起作为网络的输入,从而利用语音序列中上下文的信息。DNN中每次输入的帧数是固定的,不同的窗长对最终的识别结果会有影响。递归神经网络(Recurrent neural network,RNN)通过递归来挖掘序列中的上下文相关信息,在一定程度上克服了DNN的缺点。但是RNN在训练中很容易出现梯度消失的问题,无法记忆长时信息。长短期记忆单元(Long Short-Term Memory,LSTM)通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传给特定的单元,从而避免了梯度消失的问题。本文对RNN及LSTM的基本原理进行了介绍,并且在TIMIT语音数据库上进行了实验。实验结果表明,LSTM型递归神经网络在语音识别上的可以取得较好的识别效果
2023-01-22 13:59:06 280KB LSTM
1
语音信号处理使用软件
2023-01-14 17:29:11 2.93MB 语音信号处理 voicebox
1
MATLAB车牌识别(语音播报,库外判别,计时计费,雾霾车牌,绿色新能源车牌,车牌语义查询是亮点)
1
百度吧主管理工具(检测楼层/楼中楼语音广告回复并删除) 因在贴吧中出现了楼中楼语音广告问题,手动去删除太繁琐,也没这么多时间,就写了这么一个工具进行G机操作
2023-01-14 13:56:46 282KB 网络相关源码
1
内容索引:VC/C++源码,多媒体技术,语音,麦克风  YY语音的辅助程序,   1.要使用“按F2说话”   2.热键:    F9:自由模式下说话    F10:麦序模式下抢麦    F11:麦序模式下下麦   3.退出:    小图标上右键   
1
包含所有阿拉伯数字的元、角、分、找零等语音文件,直接可以调用的,是wav格式的
2023-01-12 19:39:29 389KB 钱币的语音
1
最新版微信支付宝二维码语音提醒软件,笔笔秒到账提醒,是开店二维码收款的好帮手,杜绝逃单行为
2023-01-12 14:31:43 56.27MB 微信支付宝
1
matlab精度检验代码ECE 5775最终项目 基于神经网络的Xilinx Zedboard上具有固定延迟的语音命令识别方法 ,和的项目。 每个文件夹及其内容的说明如下 audio_lab 它包含Xilinx Vivado和SDK项目,以将位流编程到FPGA并配置如何将数据发送到FPGA。 合并的 这包含我们基于Xilinx Vivado HLS对FPGA综合进行的集成测试,该测试基于3种不同的数据类型。 这些基于float数据类型,双精度float数据类型和Xilinx ap_fixed数据类型。 ap_fixed数据类型具有最快的运行时间,但就位宽而言并不是非常优化。 组件 Matlab的 该文件夹包含用于在MATLAB中生成训练和测试数据的所有必需文件。 在文件中查找更多详细信息 神经网络 该文件夹包含三层神经网络实现。 它学习使用前馈网络,然后进行反向传播。 分类输入以随机顺序输入网络。 在每个输入通过网络馈送之后,将检查每个输出神经元的值,并将其与所需的输出进行比较,以获取误差。 该误差通过层之间的所有边缘传播回去,并且权重在“学习”过程中进行调整。 重复该过程,直到达到期
2023-01-11 19:30:18 67.01MB 系统开源
1
基于K近邻分类算法的语音情感识别实验 KnnRecognition MATLAB
1