一种改进的模糊C-均值聚类算法在说话人识别中的应用.pdf
2021-08-21 13:03:12 263KB 聚类 算法 数据结构 参考文献
Voxceleb1数据集中的说话人验证任务 该存储库包含使用Kaldi在Voxceleb1 [1]数据集上训练i-vector说话者识别系统的简单脚本。 它是根据Kaldi / egs / sre10上的run.sh文件修改的。 要求 卡尔迪工具包 如何使用 将所有文件移至{kaldi_root} / egs / sre10文件夹 修改run.sh文件中的数据集目录和参数以适合您的计算机。 运行run.sh文件 结果 使用voxceleb1训练数据对2048个组件GMM-UBM和600维i-vector提取器进行了训练,以进行验证任务。 与Kaldi egs上的sre10基线相比,训练参数几乎相同。 GMM-2048 CDS有效值:15.39% GMM-2048 LDA + CDS eer:8.103% GMM-2048 PLDA eer:5.446% 笔记 Voxceleb1数据集是
1
SIDEKIT旨在提供执行说话人识别所需的整个工具链。 可用的主要工具包括:声学特征提取(LPCC、MFCC、VAD、CMS、CMVN),模型(GMM、PLDA)等的使用参数
2021-08-10 09:42:49 1.33MB 说话人识别
1
基于矢量量化(VQ)的说话人识别实验
2021-08-09 11:08:18 1.43MB 语音识别 说话人识别 矢量量化 VQ
1
基于高斯混合模型(GMM)的说话人识别实验
2021-08-09 11:08:17 2.68MB 语音识别 说话人识别 GMM 高斯混合模型
1
音乐转歌词 该项目的灵感来自[1]。 执行说明: 从下载MIR-1K数据集 执行create_dataset.py以拆分和预处理数据 执行train.py训练网络 执行eval.py评估网络 [1] Huang,M。Kim,M。Hasegawa-Johnson和P. Smaragdis,“使用深度递归神经网络将单声道录音中的声音分离”,载于ISMIR,2014年,第477-482页。
2021-07-21 20:33:08 743KB Python
1
利用pytorch深度学习平台可以训练LSTM网络,其中pytorch高度集成,本代码展开了其中结构
2021-07-11 20:18:36 101.23MB lstm pytorch 说话人识别
1
生物识别技术是一个新兴的技术领域,它使用独特且可测量的物理、生物或行为特征,可以对其进行处理以识别一个人。 人类的生物特征是指纹、虹膜、面部和声音。 生物识别技术的简明定义是“使用不同特征自动识别人”。 语音是生物特征之一,它是作为声音序列产生的。 声带的振动,以及各种咬合器(如舌头、嘴唇和牙齿)的位置、形状和大小都会产生所产生的声音。声音的特征因人而异,可以用于识别个人。 虽然通常认为不如其他类型的生物识别系统准确,但语音识别系统可以与其他生物识别系统结合使用,以创建更强大的识别系统说话人识别主要涉及特征提取和特征匹配两个模块。 特征提取是从说话者的语音信号中提取少量数据的过程,这些数据稍后可以用来代表该说话者。 特征匹配涉及通过将从他/她的语音输入中提取的特征与已经存储在我们的语音数据库中的特征进行比较来识别未知说话者的实际过程。 在特征提取中,我们找到梅尔频率倒谱系数 (MFCC),
2021-07-05 15:39:23 1.18MB matlab
1
matlab集成c代码 使用MSR-Idendity-toolkit 做GMM-UBM实验的过程记录 speaker recognitiong using GMM-UBM, implementing on MSR-Idendity-toolkit. 零、准备工作 下载MSR工具包,该工具包是matlab代码,即.m文件,。 下载ALIZE工具包,用于提取HTK格式的MFCC特征,如安装有HTK并会用HTK来提取MFCC特征可忽略, 一、提取MFCC特征 由于MSR工具包需要使用htk格式的mfcc特征,而HTK的安装有点复杂,因此这里直接使用ALIZE3.0工具包提取mfcc特征,ALIZE就是使用HTK的HCopy提取特征的,好处是不用安装HTK就可以直接使用HCopy,直接下载ALIZE工具包编译后即可使用。ALIZE下载地址:;ALIZE 官网地址: 用ALIZE的HCopy工具提取mfcc特征的步骤 所用代码为: bin/HCopy -C cfg/hcopy_VCTK_mfcc.cfg -T 1 -S VCTK_train_htk.scp 代码解释: Hcopy工具包的位置在M
2021-06-07 09:46:34 13.05MB 系统开源
1
这是一个说话人识别的程序,其中有十个说话人,识别率可达到90% 用matlab编写的
2021-06-03 14:52:45 4.23MB 说话人识别
1