针对现有的助听器语音增强算法在非平稳噪声环境下,残留大量背景噪声的同时还引入了“音乐噪声”,致使增强语音可懂度和信噪比不理想等问题。提出了一种基于噪声估计的二值掩蔽语音增强算法,该算法利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理。采用最小值控制递归平均(Minima-Controlled Recursive Averaging,MCRA)算法获得估计噪声和初步增强语音;将估计噪声和初步增强语音分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,得到各自的时频表示形式;利用人耳的听觉掩蔽特性,计算含噪语音在时频域的二值掩蔽;利用二值掩蔽得到增强语音。实验结果表明:该算法很大程度上去除了谱减法引入的“音乐噪声”,与基于MCRA谱减法相比,增强语音的语言可懂度指数(Speech Intelligibility Index,SII)、主观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)和信噪比(Signal to Noise Ratio,SNR)都得到了提高。
2023-04-17 09:04:31 780KB 论文研究
1
为了使说话人识别系统在语音较短和存在噪声的环境下也具有较高的识别率, 基于矢量量化识别算法, 对提取的特征参数进行研究。把小波变换与美尔频率倒谱系数(MFCC )的提取相结合, 并将改进后的特征与谱质心 特征进行了组合, 建立了一种美尔频率小波变换系数+ 谱质心(MFWTC+ SC) 的新的组合特征参数。经实验表明, 该 组合特征可以有效地提高说话人识别系统的性能。
2023-04-15 16:18:16 185KB 说话人识别 特征提取
1
受声学研究启发,结合人脑人耳听觉特性对语音的处理方式,建立了一个完整的模拟听觉中枢系统的语音分离模型.首先利用外周听觉模型对语音信号进行多频谱分析,然后建立重合神经元模型提取语音信号的特征,最后在脑下丘的神经细胞模型中完成对语音的分离.基于现有的语音识别方法,该模型能够很好地解决绝大多数的语音识别方法都只能在单声源和低噪声的环境下使用的问题.实验结果表明,该模型能够实现多声源环境下语音的分离并且具有较高的鲁棒性.随着研究的深人,基于人耳听觉特性的语音分离模型将有很广泛的应用前景.
2023-04-15 16:11:31 529KB 工程技术 论文
1
TETRA中的ACELP语音压缩编码TETRA中的ACELP语音压缩编码
2023-04-14 19:52:50 612KB 语音压缩
1
微信版语音跟读程序开源源码,这个是比较完整的微信小程序实例了,是已经在用的语音跟读应用的微信版,运行界面如测试截图所示。   你可以跟着小程序中安排的内容跟读,跟读结束录音打卡,里面自带了一些有趣的跟读内容,比如绘画跟读等,有很多动画片为主题的跟读内容,同样也是很适合小朋友们学习使用的。
2023-04-13 12:47:13 1.15MB 微信源码-多媒体
1
百度智能语音合成识别服务MRCP 用于集成freeswitch以实现呼叫中心的智能语音合成及识别功能,可应用于智能外呼、云客服等场景
2023-04-13 11:30:02 152.28MB 百度智能语音 百度MRCP 智能客服
文字转语音助手 3.6 绿色版
2023-04-13 10:58:26 38.83MB 文字转语音
1
1 oled显示屏 2 LD3320语言识别 3 红外测温模块 4 语音播报模块 5 步进电机驱动 6 舵机控制
2023-04-13 00:44:50 122.57MB 语音识别
1
PyTorch + Catalyst实现的“ 。 该存储库处理培训过程。 为了进行推断,请检出GUI包装器:PyQT中的 。 该储存库已与合并为。 目录 要求 计算方式 我们在1050 Mobile和Tesla V100的两个GPU上运行了该程序。 我们没有进行任何基准测试,但是V100的速度大约提高了400倍。 它还取决于您下载的数据量。 因此,任何服务器级GPU都是可行的。 贮存 该程序确实会生成很多文件(下载和其他方式)。 每个音频文件的大小为96kiB。 对于7k独特的音频剪辑,并以70/30的比例进行火车和验证拆分,它占用了约120GiB的存储空间。 因此,如果您下载更多音频片段,则至少为1TB 。 记忆 至少需要4GB VRAM 。 它可以处理2个批处理大小。在20个批处理大小下,在两个GPU上,每个GPU占用16GiB VRAM。 设置 如果您使用的是Docker,则
1