VoxCeleb教练 该存储库包含用于培训演讲者识别模型的框架,该文章在“捍卫说话者识别的度量学习”一文中进行了描述。 依存关系 pip install -r requirements.txt 资料准备 以下脚本可用于下载和准备VoxCeleb数据集以进行培训。 python ./dataprep.py --save_path data --download --user USERNAME --password PASSWORD python ./dataprep.py --save_path data --extract python ./dataprep.py --save_path data --convert 为了使用数据扩充,还运行: python ./dataprep.py --save_path data --augment 除Python依赖项外,必须在系统上安装wg
1
:warning: 结帐分支以查看pyannote.audio 2.0 中的内容: 一个更小更干净的代码库 Python-first API(不过,旧的pyannote-audio CLI 仍然可用) 多 GPU 和 TPU 训练 使用数据增强 模特主持 音频注释的食谱 基于在线 使用pyannote-audio神经说话者分类 pyannote.audio是一个用 Python 编写的用于说话人分类的开源工具包。 基于机器学习框架,它提供了一组可训练的端到端神经构建块,可以组合和联合优化来构建说话人分类管道: pyannote.audio还带有涵盖了语音活动检测、说话人变化检测、重叠语音检测和说话人嵌入的广泛领域: 安装 pyannote.audio在 Linux 和 macOS 上仅支持 Python 3.7(或更高版本)。 它可能适用于 Windows,但没有任何保证,也没有任何计划添加对
1
多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1
D向量 这是经过GE2E损失训练的扬声器嵌入的PyTorch实现。 有关GE2E丢失的原始文章可以在这里找到: 用法 import torch import torchaudio wav2mel = torch . jit . load ( "wav2mel.pt" ) dvector = torch . jit . load ( "dvector.pt" ). eval () wav_tensor , sample_rate = torchaudio . load ( "example.wav" ) mel_tensor = wav2mel ( wav_tensor , sample_rate ) # shape: (frames, mel_dim) emb_tensor = dvector . embed_utterance ( mel_tensor ) # shape: (emb
1
密集连接的时延神经网络 在我们的论文 的密集 (INTERSPEECH 2020)中,密集连接的时延神经网络(D-TDNN)的PyTorch实施。 什么是新的 :warning: [2021-02-14]我们在添加了一个impl选项,现在您可以选择: 'conv':通过F.conv1d实现TDNN。 'linear':通过F.unfold和F.linear实现TDNN。 检查此以获取更多信息。 请注意,尚未完成“ conv”的预训练模型。 [2021-02-04]此存储库中的TDNN(默认实现)比nn.Conv1d慢,但我们采用它是因为: 此仓库中的TDNN还用于创建nn.Conv1d(非对称填充)不完全支持的F-TDNN模型。 nn.Conv1d(dilation> 1,bias = True)训练缓慢。 但是,这里我们不使用F-TDNN,我们总是在D-TDNN中设置bias = F
1
Voxceleb1数据集中的说话人验证任务 该存储库包含使用Kaldi在Voxceleb1 [1]数据集上训练i-vector说话者识别系统的简单脚本。 它是根据Kaldi / egs / sre10上的run.sh文件修改的。 要求 卡尔迪工具包 如何使用 将所有文件移至{kaldi_root} / egs / sre10文件夹 修改run.sh文件中的数据集目录和参数以适合您的计算机。 运行run.sh文件 结果 使用voxceleb1训练数据对2048个组件GMM-UBM和600维i-vector提取器进行了训练,以进行验证任务。 与Kaldi egs上的sre10基线相比,训练参数几乎相同。 GMM-2048 CDS有效值:15.39% GMM-2048 LDA + CDS eer:8.103% GMM-2048 PLDA eer:5.446% 笔记 Voxceleb1数据集是
1