VoxCeleb教练 该存储库包含用于培训演讲者识别模型的框架,该文章在“捍卫说话者识别的度量学习”一文中进行了描述。 依存关系 pip install -r requirements.txt 资料准备 以下脚本可用于下载和准备VoxCeleb数据集以进行培训。 python ./dataprep.py --save_path data --download --user USERNAME --password PASSWORD python ./dataprep.py --save_path data --extract python ./dataprep.py --save_path data --convert 为了使用数据扩充,还运行: python ./dataprep.py --save_path data --augment 除Python依赖项外,必须在系统上安装wg
1
说话的头 描述 该项目是的PyTorch实施。 在本文中,对GAN进行了设计和培训,可以从仅几张头像(可能只有一张)和面部表情中复制出真实的会说话的头部模型。 该论文解释了该模型的体系结构,但是缺少许多细节,并且没有发布正式的实现或受过训练的模型。 当前,仅实施了元培训过程,并且运行良好。 微调过程即将到来! 感谢社区帮助使该模型正常工作! 更多实施细节 在继续阅读之前,请阅读原始论文。 数据集 Talking Heads模型是使用数据集进行训练的。 该数据集是公开可用的,但是要下载它,您需要填写Google Docs请求访问。 训练集包含约140k的摇头视频(并非所有人都是不同的人)。 下载 该下载文件包含9个文件,每个文件约30GB。 直接从他们的服务器下载速度太慢,因此我们强烈建议您下载他们在Google云端硬盘中拥有的版本,该版本的下载速度约为25MB / s。 您可以使用
2022-08-24 14:28:25 32KB Python
1
应用背景语音识别是当今生活中的一个热门话题。语音识别的应用可以随处可见,这使我们的生活更为有效。例如在手机上的应用,而不是打电话的人的名字,人们可以直接说出姓名的人到手机,和手机会自动呼叫那个人。如果人们想给别人发短信,人们也可以把短信发到手机上,而不是打字。语音识别是一种人们可以用自己的语言来控制系统的技术。代替键盘或操作系统的按钮,使用语音来控制系统更方便。同时也可以降低工业生产的成本。使用语音识别系统不仅提高了日常生活的效率,而且使人们的生活更加多样化关键技术总的来说,这个项目的目的是探讨通过编程与仿真设计的系统是基于matlab的语音识别算法。同时,该项目的另一个目的是利用所学到的知识的实际应用。在这个项目中,我们将计划2个系统。这两个设计系统的主要算法是相关和Mel频率倒谱系数。为了得到可靠的结果,测试将在不同的情况下完成。首先,测试环境将噪声和无噪声分别为研究设计系统的噪声免疫力。测试的话,将选择不同的对,是容易3 | P A G E公认的单词和难识别的单词。由于设计的系统需要三个输入语音的话,这是2个参考语音和一个目标语音的话,所以这是显着的检查,如果两者的设计系统工作时
2022-07-13 11:07:25 678KB MFCC 说话人识别系统
大数据时代以"数据"说话 作者:陈琦 来源:《初中生世界·八年级》2014年第04期 初中阶段对统计与概率内容的学习要求是体会抽样的必要性以及用样本估计总 体的思想,进一步学习描述数据的方法,进一步体会概率的意义,能计算简单事件发生 的概率. 一、 根据图表数据分析变化趋势并写出相关结论 同学们在从事收集数据的活动中,对于同一个问题,有时会出现不同的同学或 不同的小组得出不同的结论的情形,这时同学们要注意对收集的数据进行科学的评价, 不能随意得出结论. (1) 最高气温为2 的天数为____天; (2) 说出该市这10天气温变化趋势; (3) 根据图表写一条有关的结论 【难点分析】本题提供的是折线统计图,折线统计图不但可以表示出数量的多 少,而且能够清楚地表示数量增减变化的情况. 第(1)小题要注意10日的最高温度也是2 ,所以最高气温为2 的天数有3天;回答第(2)小题时要注意这10天的最高温度有升有降,不能用一句"最 高气温呈上升趋势"来概括;第(3)小题结论是开放的,但要能与折线图所反映的情况 相符. 解:(1) 最高气温为2 的天数为3天; (2) 这10天最高气温逐步上升,但
2022-06-22 09:04:03 30KB 文档资料
深度学习框架下说话人识别综述
2022-06-14 19:08:57 823KB 声纹识别
1
Auto Speaker Recognition main.py the main file for test audio_record.py record audio from micro phone count_days.py count days between two date. 20110805 20160903 mfcc_feature.py extract mfcc feature from wav files SGD.model* the trained model on train set , and the accurate is 70% util.py contains the most useful functions train train data is 75% of all the data test test data is 25% of all the data and has no overlap with train set classification_SGD.py is the main classification function py file , and it use
2022-06-14 12:48:51 9.44MB 说话人识别
1
matlab由频域变时域的代码EEC-201 [说话者识别] ♪我周围都是熟悉的面Kong..但是现在他们是熟悉的声音...♫ 团队:敬业的工程师 这个项目是由Aakansha和Sadia共同完成的,目的是使用MFCC,VQ和LBG算法来实现说话人识别。 Sadia从事过预加工和MFCC。 Aakansha从事LBG,噪声添加和陷波过滤方面的工作。 培训,测试和分析写作是同时进行的。 介绍 在当今世界大流行和隔离的情况下,从字面上看,我们的声音变得越来越重要。 由于通信仅限于虚拟,因此通过面对面或通过指纹进行的身份验证已经过时。 但是,正如我们的脸部和指纹独特一样,我们的声音也具有鲜明而可区分的特征。 如我们的项目所示,计算机程序比人耳能够更好地识别这些功能。 我们使用模式识别或特征匹配实现说话人识别系统,其中将从输入语音信号中提取的声学矢量序列分类为各个说话人ID。 具体来说,我们的系统是监督模式识别的一种实现,其中数据库由训练集中的已知模式组成,这些模式与测试集进行比较以评估我们的分类算法。 有两种方法可以进行说话人识别-依赖文本和不依赖文本。 依赖于文本的说话者识别策略要求说话
2022-06-01 21:48:16 2.8MB 系统开源
1
SVM的几个核函数对说话人身份识别的技术研究 根据具体的数据得到特征 然后采取svm分类,svm包含高斯核函数 线性核函数 RBF核函数 多项式核函数等 采取了不同的核函数对说话人的身份进行识别
2022-06-01 18:10:22 2.52MB matlab
基于MELFCC和随机森林的说话人识别系统
2022-05-30 14:07:40 991KB 随机森林 源码软件 算法 机器学习
MFCC+svm交叉验证的说话人分类
2022-05-30 14:07:39 906KB matlab