这是 Ephraim 的 MMSE log-STSA 方法 1985 的实现。决策导向方法用于跟踪先验 SNR 跟踪。
2022-05-18 10:03:58 3KB matlab
1
使用UNET增强语音 塞萨洛尼基亚里斯多德大学-电气和计算机工程 课程:音频和视频技术 作者: , , , 该存储库包含音频和视频技术课程的作业。 目的是要了解深度学习的分支并将其应用于人类语音的去噪问题。 数据集 使用的数据集是 (Microsoft可缩放的嘈杂语音数据库)。 借助其提供的功能,并在选择了特定类型的噪声之后,将它们与各种SNR比率(0 dB,5 dB,10 dB,15 dB,20 dB)的清晰语音信号混合,从而总共得到4种噪声。小时的训练集和30分钟的测试集已创建。 可以在s01_CreateWAVs.py文件中找到此过程。 在Dataset_MS_SNSD和Dataset_My_Wavs文件夹中,有一些屏幕截图,显示了如何将音频文件放置在原始和最终集中。 网络 可以在s03_InitializeModel.py文件中找到使用的模型,并可以在下图中看到它: 请注意
2022-05-17 04:41:59 139.29MB Python
1
深度学习在人工智能领域取得了巨大突破。 当前,时域语音识别的鲁棒性较差,频域语音识别的频谱图复杂度也需要大大降低。 因此,本文提出了一种基于R-CNN的快速目标检测方法,用于在时域和频域中识别用于语音识别的频谱图。 提出的方法仅关注频谱图的局部感兴趣区域(明显的声纹),该区域过滤高频噪声以提高性能。 实验结果表明,所提出的方法比现有方法具有更高的准确性和鲁棒性,并且在嘈杂的工厂中可以表现良好。
2022-05-16 11:54:08 515KB speech recognition spectrogram target
1
speech_recognition:适用于Python的语音识别模块,支持在线和离线的多个引擎和API
2022-05-15 21:31:48 119.55MB audio python speech-recognition speech-to-text
1
matlab说话代码语音识别系统 这是关于使用MATLAB实现信号分析和语音识别系统。 特征 Speech_recognition_1.m 音频信号图 语音起点和终点检测 离散傅立叶变换 信号预加重 信号压缩(线性预测编码) Speech_recognition_2.m 特征提取(MFCC) 使用失真矩阵和动态规划的语音识别 数据 该项目中使用的数据是通过人工记录的。 “ 1、2、4、5、6”的声音分别录制了两次,分为2组。 重复录音主要用于语音识别部分,一组已知,用于测试以对语音进行分类。 结果 输出保存在./result目录中。 包括:信号波,DFT波,梅尔倒谱,点检测结果,识别结果。
2022-05-12 08:32:05 1.43MB 系统开源
1
用matlab生成谐波代码演示 这个matlab分类器旨在区分正常语音,辱骂/愤怒/违规语音和环境噪声。 语音/噪声分类器基于音频零交叉速率和频谱通量,滥用语音分类器基于梅尔频率倒谱系数和谐波比。 分类器使用K最近邻。 SVM和决策树也经过测试,但由于性能不佳而未选择。 我的训练数据,报告和其他文件可以在以下保管箱链接中找到: 先决条件 Matlab R2014或更高版本(不太确定...) 旧版本中的大多数错误是由于函数名称不同而引起的。 例如, wavread用于旧版本,而不是audioread 。 要检查您的matlab版本是否合适,请输入您的matlab控制台 help audioread 如果是“ audioread”的解释,请继续输入 help audiorecorder 如果列出了两个功能的说明,那么您将它们包含在当前的Matlab中,现在就可以运行我的代码。 安装和运行代码 下载我的Matlab代码 git clone https://github.com/zhiyuan8/speech_detection.git 将您的Matlab工作目录更改为您下载我的代码的文件夹。
2022-05-10 22:05:06 17.7MB 系统开源
1
1) 继承百度 sdk ,最简单的一个 语音在线识别 软件
2022-05-08 21:40:46 156.31MB speech
1
inaSpeechSegmenter inaSpeechSegmenter是一个基于CNN的音频分段工具包。 它将音频信号分成语音,音乐和噪音的均匀区域。 语音区域分为使用说话者性别(男性或女性)标记的片段。 男性和女性分类模型针对法语进行了优化,因为他们是使用法语说者进行培训的(说话者性别的声学相关性取决于语言)。 对应于音乐之上的语音或噪声之上的语音的区域被标记为语音。 设计inaSpeechSegmenter的目的是基于男女语音时间百分比估计来执行。 安装 inaSpeechSegmenter是python 3中的框架。仅支持大于或等于3.6的python版本。 可以使用以下过程进行安装: 先决条件 inaSpeechSegmenter需要ffmpeg才能解码任何类型的格式。 可以使用以下命令行完成ffmpeg for ubuntu的安装: $ sudo apt-get in
2022-05-07 15:36:40 13.44MB music speech audio-analysis noise
1
帕金森病使用语音作为生物标志物 介绍 帕金森病是一种神经退行性疾病。 帕金森病患者经常会出现僵硬、颤抖、协调困难,并且随着疾病的进展,它开始影响语言的各个方面。 具体而言,通常受帕金森氏病影响的言语方面是声音低下(音量降低)、构音障碍(发音困难)和单调(音调范围减小)。 目前,帕金森病不能通过单一测试来诊断。 诊断基于病史、症状以及神经系统和身体检查,这些检查都在很大程度上基于运动功能。 然而,在帕金森病的早期阶段,很难发现运动缺陷,因为它们可能并不严重。 使用替代生物标志物,例如语言方面,可能有助于早期诊断。 小等人。 (2007) 通过评估两种测量语音方面的新方法(复发概率密度熵 (RPDE) 和去趋势波动分析 (DFA))是否有助于区分患有和不患有帕金森病的参与者来研究该主题。 研究结果表明,这些新方法能够比传统的评估语言方面的方法更好地对患有和不患有帕金森病的个体进行分类。 这
2022-05-05 20:37:07 1.61MB HTML
1
语音识别技术越来越多地用于电话应用,例如旅行预订和信息,金融帐户信息,客户服务呼叫路由和目录服务。 使用受约束的语法识别,此类应用程序可以实现非常高的准确性。 随着实现这种语音激活系统的成本下降并且这些系统的实用性和有效性得到了提高,语音识别技术的研究和开发持续增长。 例如,为电话应用程序优化的识别系统通常可以提供有关特定识别的置信度的信息,如果置信度低,则可以触发该应用程序以提示呼叫者确认或重复他们的请求。 索引词:语音,识别,验证,声音,孤立,单词。
2022-05-04 23:23:10 1.69MB 开源软件
1