语音信号处理 第二章 语音信号处理的基础知识 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析 (1)语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为语言学(linguistics)。 (2) 语音中各个音的物理特性和分类的研究称为语音学(phonetics) 。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。 人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。
1
从视频中提取音频 安装 moviepy pip install moviepy 相关代码: audio_file = work_path + '\\out.wav' video = VideoFileClip(video_file) video.audio.write_audiofile(audio_file,ffmpeg_params=['-ar','16000','-ac','1']) 根据静音对音频分段 使用音频库 pydub,安装: pip install pydub 第一种方法: # 这里silence_thresh是认定小于-70dBFS以下的为silence,发现小于 s
2023-02-25 15:11:37 96KB 百度 语音识别
1
AVSpeech是一个新的,大规模的视听数据集,包括语音视频剪辑没有干扰的背景噪声。视频片段长3-10秒,每个片段中可听到的声音都属于一个说话的人,在视频中可以看到。总的来说,这个数据集包含了大约4700个小时的视频片段,来自于YouTube上总共290k个视频,涵盖了各种人、语言和面部姿势。
2023-02-24 11:40:35 8.48MB 语音识别
1
【语音识别】拨号语音识别含Matlab源码
2023-02-23 21:00:14 516KB
1
以一个能识别数字0~9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果。
2023-02-23 16:41:19 822KB 语音识别 端点检测 DTW算法 Matlab实现
1
《MATLAB语音信号分析与合成(第二版)》语音工具包 经常会调用的一些函数(自编函数或取自其他应用工具箱中的函数)已集中在basic_tbx工具箱中,在运行本书的程序前请把该工具箱设置(用set path设置)在工作路径下; 当要运行EMD处理时,要把emd工具箱设置在工作路径下; 当要运行主体延伸基音检测时,要把Pitch_ztlib工具箱设置在工作路径下; 当要进行时域基音同步叠加语音合成时,要把psola_lib工具箱设置在工作路径下; 当要应用本书提供的语音数据时,最好把speech_signal设置在工作路径下。
1
在Linux环境下,C语言编写服务器,完成的功能是利用v4l2技术采集usb摄像头视频,传输到Qt客户端显示。其中还有百度语音识别的动能。
2023-02-06 14:52:51 597KB v4l2 tuling 语音识别
1
科技在进步,残疾人想使用电脑,键盘这种输入装置对于残疾人来说不够方便,于是在跟一些资深玩家们头脑激荡时,想到了可以用头部输入的方式,就是这个头戴式肌电鼠标! 用该设备采用运动感应、肌电传感、语音识别等技术,可以实现: 1. 用陀螺仪将头部运动转化为鼠标运动,从而解放双手,帮助双手行动不便及单/双臂缺失的人。 2. 肌肉电传感器检测牙齿咀嚼肌的咬合,实现鼠标单击双击。 3. 语音可选控制/输入模式,控制模式可实现命令控制,如“复制”“粘贴”等;输入模式可将语音转换为文字。从而实现快速控制与输入。 4. 运动感应器,实现坐姿检测、颈椎病预防等功能; 硬件列表: 视频展示: 详细制作过程详见附件! 【转载自DF社区】
2023-02-03 17:20:56 922KB 语音识别 运动感应 电路方案
1
MASR的V2版本训练Conformer模型文件,使用Fbank,Pytorch,训练数据为超大数据集,13000+小时。 源码地址:https://github.com/yeyupiaoling/MASR
2023-02-02 17:35:43 435.03MB pytorch asr 语音识别 wenetspeech
语音识别 使用TensorFlow实现语音识别系统。 中篇文章的更多说明: : 二手图书馆 pip install tensorflow tensorflow_io 文件说明 test_load.py 加载Mozilla Common Voice的标签文件: : test_lstm.py 简单的LSTM模型可预测单词序列中的下一个单词。 它使用Mozilla Common Voice数据集标签文件。 test_trad.py Seq2Seq模型以与输入相同的语言翻译句子。 它使用Mozilla Common Voice数据集标签文件。 test_words.py 简单的LSTM模型可将音频转换为单词。 它使用语音命令数据集: : test_wordsFr.py 简单的LSTM模型可将音频转换为法语单词。 它使用此存储库中包含的自制数据集。 test_words_com
2023-01-30 10:23:58 13.83MB Python
1