多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1
微软开源说话人识别matlab代码工具包
2021-12-06 13:11:53 48.65MB 说话人识别
1
【语音识别】基于MFCC特征实现说话人语音识别matlab源码.zip
2021-12-04 17:53:28 1.55MB 简介
1
使用VQ适量量化对说话人进行识别,并成功应用到门禁识别领域,该程序使用matlab GUI界面开发,根据人声实现说话人的确认,然后对门禁系统进行开锁,目前可以实现添加说话人、删除说话人等一系列操作。与我的博客(基于VQ矢量量化的说话人识别(应用于门禁识别)是配套的)希望可以帮助到大家。
2021-12-04 13:00:24 42.74MB 说话人识别 门禁识别 VQ矢量量化
1
D向量 这是经过GE2E损失训练的扬声器嵌入的PyTorch实现。 有关GE2E丢失的原始文章可以在这里找到: 用法 import torch import torchaudio wav2mel = torch . jit . load ( "wav2mel.pt" ) dvector = torch . jit . load ( "dvector.pt" ). eval () wav_tensor , sample_rate = torchaudio . load ( "example.wav" ) mel_tensor = wav2mel ( wav_tensor , sample_rate ) # shape: (frames, mel_dim) emb_tensor = dvector . embed_utterance ( mel_tensor ) # shape: (emb
1
matlab说话代码可控金字塔 适用于MATLAB的可控金字塔生成器,可视化器和纹理合成器 我为我的MSc创建了此代码。 我需要了解油藏图像数据处理的论文,以了解Portilla等人提出的工作流程是如何工作的。 尽管Portilla的原始代码(请参见此处:)运行良好,但要完全理解构建可操纵金字塔,表征纹理并进行合成的不同过程中的每个步骤非常困难,因为几乎没有注释或可理解的变量名被使用。编码。 我研究了几周的代码,并独自实现了所有流程。 我评论了所有步骤,并尝试尽可能多地引用原始文件。 因此,如果有人希望/需要了解这段代码的工作原理,那将稍微容易一些。 我从头开始实现了所有功能,并且仅使用Portilla的原始代码之一(扩展功能)。 我还包括了另一个函数(“ dispPyramid”),该函数以更友好的方式显示可操纵的金字塔(给人以真实金字塔的印象),因此,如果您需要在任何纸质或作品中显示金字塔,则可以简单地使用此功能几乎是开箱即用的。 我已经使用相同的输入图像和相同的初始条件(开始出现白噪声)测试了我的代码和Portilla的原始代码,并且它们提供了完全相同的结果(我检查了每个值的此值
2021-12-01 19:04:21 2.97MB 系统开源
1
这是 Python3 的 VoiceID 端口。 原始版本在这里: : 。 VoiceID 是一个用 Python 编写的说话人识别/识别系统,基于 LIUM Speaker Diarization 框架。 VoiceID 可以对视频或音频文件进行处理,以识别在哪个时间片有人说话(diarization); 然后它检查所有这些段以确定谁在说话。 为此使用语音模型数据库。
2021-11-27 19:42:37 4.94MB Python
1
uniapp实现录音、播放功能,类似微信 语音按住说话松开结束,可指定时长,参照uniapp的API实现,记录录音时长,播放录音,超出时长自动结束录音
1
用matlab实现说话人的识别,有具体的例子和代码,还有做界面的参考资料。
2021-11-22 11:29:38 1.19MB 说话人识别
1
果蔬类卖场陈列看图说话页.pdf
2021-11-12 11:01:50 4KB