matlab中的plp代码使用
DNN
进行语音活动检测的特征和架构研究
该工具包提供了威斯康星大学麦迪逊分校电气和计算机工程系硕士论文(使用深度神经网络进行语音活动检测的特征和架构研究)中使用的代码。
介绍
该工具包基于以下工作:[1]。
该工具包的附加值是特征分析部分。
本工具包中的
SAD
遵循以下步骤:
声学特征提取
使用Python从语音中提取以下特征:
MRCG
MFCC
全球气候变化委员会
RASTA-PLP(在
Matlab
中从
Python
中提取)
AMS
能量
+
过零(在
Matlab
中从
Python
中提取)
多分辨率
MFCC
-
为本文创建的新功能
多分辨率
MFCC
(MR-MFCC):
此功能背后的主要思想是对语音信号的多分辨率频谱表示进行编码,以捕获本地信息和频谱时间上下文。
此功能的灵感来自多分辨率耳蜗图
(MRCG),发现它对
SAD
有益,但遵循计算复杂度较低的提取方案。
MR-MFCC
分三步提取:
从
25ms
窗口计算
40
维
MFCC
从长度为
200ms
的窗口计算
MFCC
将结果连接到一个向量以生成具有
80
维的特征。
2021-10-10 17:57:31
17.34MB
系统开源
1