VoxCeleb教练 该存储库包含用于培训演讲者识别模型的框架,该文章在“捍卫说话者识别的度量学习”一文中进行了描述。 依存关系 pip install -r requirements.txt 资料准备 以下脚本可用于下载和准备VoxCeleb数据集以进行培训。 python ./dataprep.py --save_path data --download --user USERNAME --password PASSWORD python ./dataprep.py --save_path data --extract python ./dataprep.py --save_path data --convert 为了使用数据扩充,还运行: python ./dataprep.py --save_path data --augment 除Python依赖项外,必须在系统上安装wg
1
matlab由频域变时域的代码EEC-201 [说话者识别] ♪我周围都是熟悉的面Kong..但是现在他们是熟悉的声音...♫ 团队:敬业的工程师 这个项目是由Aakansha和Sadia共同完成的,目的是使用MFCC,VQ和LBG算法来实现说话人识别。 Sadia从事过预加工和MFCC。 Aakansha从事LBG,噪声添加和陷波过滤方面的工作。 培训,测试和分析写作是同时进行的。 介绍 在当今世界大流行和隔离的情况下,从字面上看,我们的声音变得越来越重要。 由于通信仅限于虚拟,因此通过面对面或通过指纹进行的身份验证已经过时。 但是,正如我们的脸部和指纹独特一样,我们的声音也具有鲜明而可区分的特征。 如我们的项目所示,计算机程序比人耳能够更好地识别这些功能。 我们使用模式识别或特征匹配实现说话人识别系统,其中将从输入语音信号中提取的声学矢量序列分类为各个说话人ID。 具体来说,我们的系统是监督模式识别的一种实现,其中数据库由训练集中的已知模式组成,这些模式与测试集进行比较以评估我们的分类算法。 有两种方法可以进行说话人识别-依赖文本和不依赖文本。 依赖于文本的说话者识别策略要求说话者
2022-06-01 21:48:16 2.8MB 系统开源
1
语音识别matlab代码详解语音识别系统开发生命周期 阶段 规划: 定义系统的范围 根据说话者的语音样本识别说话者。 可行性研究 估算成本 该项目在特定语音样本不被篡改或说话者试图模仿其他声音的范围内是可行的。 这是一个完全在软件上完成的简单项目,因此除了时间之外没有其他成本。 但是,如果我们尝试基于此实现构建硬件设备,成本部分就会出现。 分析: 定位现有缺陷 语音识别技术已经取得了很多进步,但仍有很大的发展空间。 基于语音的设备在我们的日常生活中找到了它们的应用,并且特别对那些患有某种残疾的人有巨大的好处。 定义要求 基于语音的设备在我们的日常生活中找到了它们的应用,并且特别对那些患有某种残疾的人有巨大的好处。 我们还可以将这些基于语音的设备用于安全措施,以减少欺诈和盗窃案件。 高级要求 MATLAB 编码,分析语音信号的基本理解。 低级要求 了解 MFCC 特征提取过程。 高级设计: 低级设计: 文件夹结构 文件夹 描述 1 Requirements 对项目的必要了解 2 Architecture 详细实施流程 3 Implementation Matlab 代码文件 4 Test
2022-04-18 14:10:37 3.13MB 系统开源
1
:warning: 结帐分支以查看pyannote.audio 2.0 中的内容: 一个更小更干净的代码库 Python-first API(不过,旧的pyannote-audio CLI 仍然可用) 多 GPU 和 TPU 训练 使用数据增强 模特主持 音频注释的食谱 基于在线 使用pyannote-audio神经说话者分类 pyannote.audio是一个用 Python 编写的用于说话人分类的开源工具包。 基于机器学习框架,它提供了一组可训练的端到端神经构建块,可以组合和联合优化来构建说话人分类管道: pyannote.audio还带有涵盖了语音活动检测、说话人变化检测、重叠语音检测和说话人嵌入的广泛领域: 安装 pyannote.audio在 Linux 和 macOS 上仅支持 Python 3.7(或更高版本)。 它可能适用于 Windows,但没有任何保证,也没有任何计划添加对
1
密集连接的时延神经网络 在我们的论文 的密集 (INTERSPEECH 2020)中,密集连接的时延神经网络(D-TDNN)的PyTorch实施。 什么是新的 :warning: [2021-02-14]我们在添加了一个impl选项,现在您可以选择: 'conv':通过F.conv1d实现TDNN。 'linear':通过F.unfold和F.linear实现TDNN。 检查此以获取更多信息。 请注意,尚未完成“ conv”的预训练模型。 [2021-02-04]此存储库中的TDNN(默认实现)比nn.Conv1d慢,但我们采用它是因为: 此仓库中的TDNN还用于创建nn.Conv1d(非对称填充)不完全支持的F-TDNN模型。 nn.Conv1d(dilation> 1,bias = True)训练缓慢。 但是,这里我们不使用F-TDNN,我们总是在D-TDNN中设置bias = F
1
关于 这是带有GUI的系统。 有关此项目的更多详细信息,请参见: 我们的 我们的 依存关系 可用于更轻松地开始该项目。 Linux,Python 2 , , , : pip install --user scikit-learn scikits.talkbox pyssp PyAudio ,通常可以由您的软件包管理器安装。 (可选) Python绑定: 安装闪电战,openblas,boost,然后: for p in bob.extension bob.blitz bob.core bob.sp bob.ap; do pip install --user $p done 注意:我们自己有一个MFCC实现,当bob不可用时,该实现将用作备用。 但是它不如bob中的C实现高效。 使用的算法 语音活动检测(VAD): (LTSD) 特点: (MFCC) (L
2021-10-10 17:47:55 25.69MB 系统开源
1
Voxceleb1数据集中的说话人验证任务 该存储库包含使用Kaldi在Voxceleb1 [1]数据集上训练i-vector说话者识别系统的简单脚本。 它是根据Kaldi / egs / sre10上的run.sh文件修改的。 要求 卡尔迪工具包 如何使用 将所有文件移至{kaldi_root} / egs / sre10文件夹 修改run.sh文件中的数据集目录和参数以适合您的计算机。 运行run.sh文件 结果 使用voxceleb1训练数据对2048个组件GMM-UBM和600维i-vector提取器进行了训练,以进行验证任务。 与Kaldi egs上的sre10基线相比,训练参数几乎相同。 GMM-2048 CDS有效值:15.39% GMM-2048 LDA + CDS eer:8.103% GMM-2048 PLDA eer:5.446% 笔记 Voxceleb1数据集是
1
说话人识别的技术汇总图书,属于综述类文章的汇集成册
2021-05-04 16:43:05 16.4MB 说话人识别
1
英文版本,对语音识别技术的现有情况地总结和描述了对未来的展望。
2021-05-04 16:23:26 757KB recognition
1