500条WAV格式的中文语音数据集,可用于中文语音识别模型的测试集,好的一批
2023-08-14 10:02:25 45.69MB python 数据集 nlp 深度学习
1
AVSpeech是一个新的,大规模的视听数据集,包括语音视频剪辑没有干扰的背景噪声。视频片段长3-10秒,每个片段中可听到的声音都属于一个说话的人,在视频中可以看到。总的来说,这个数据集包含了大约4700个小时的视频片段,来自于YouTube上总共290k个视频,涵盖了各种人、语言和面部姿势。
2023-02-24 11:40:35 8.48MB 语音识别
1
语音语料库_part_9 TEST DR1 TIMIT contains a total of 6300 sentences, 10 sentences spoken by each of 630 speakers from 8 major dialect regions of the United States. Table 1 shows the number of speakers for the 8 dialect regions, broken down by sex. The percentages are given in parentheses. A speaker's dialect region is the geographical area of the U.S. where they lived during their childhood years.
2022-12-08 11:28:43 12.44MB 语音数据集
1
3000+小时的中文普通话语音数据集,可用于语音识别训练,使用地址:https://github.com/yeyupiaoling/PPASR
2022-11-17 19:27:14 292B 中文语音数据集 语音识别 PPASR
Microsoft可伸缩的嘈杂语音数据集(MS-SNSD) 此数据集包含大量以16 kHz采样的.wav格式的干净语音文件和各种环境噪声文件。 该数据集的主要应用是训练深度神经网络(DNN)模型以抑制背景噪声。 但是它可以用于其他音频和语音应用程序。 我们提供了在各种信噪比(SNR)条件下混合干净语音和噪声以生成大型嘈杂语音数据集的方法。 可以根据应用要求配置SNR条件和所需的数据小时数。 随着我们鼓励研究人员和从业人员通过添加更多清晰的语音和噪声片段为该数据集做出贡献,该数据集的大小将继续增长。 该数据集将极大地帮助学院和行业的研究人员和从业人员开发更好的模型。 我们还提供与训练集不同的测试集,以评估开发的模型。 我们提供html代码,用于构建两个Human Intelligence Task(HIT)众包应用程序,以允许用户对嘈杂的音频片段进行评分。 我们根据ITU-T
2022-05-16 15:05:30 2GB HTML
1
最全面的中英文语音数据集介绍(附加下载链接),包括LibriSpeech ASR corpus,TED-LIUM,THCHS-30,Aishell等
2022-05-02 22:03:28 13KB THCHS-30 Aishell 中英文语音数据集
1
UCI_Dataset 具有多种录音数据集的帕金森语音数据集
2022-04-28 13:38:40 24.32MB
1
解压打开文件后可以看到两个文件夹,一个是音频文件一个是标签文件,可以根据自己的需要将数据集任意的操作
2022-04-06 16:12:27 421.5MB 中文语音数据集
1
语音数据大全
2022-01-07 21:06:40 239KB 语音数据集
1
CSTR语音克隆英语多说话人语料库工具包 概述 这个CSTR VCTK语料库包含了109个以不同口音为母语的英语使用者的语音数据。 每位演讲者要朗读大约400句句子,其中大部分是从报纸上挑选出来的,再加上彩虹段落和一段旨在识别演讲者口音的启事段落。 这些报纸文本是在先驱时报集团(Herald & Times Group)的许可下,从格拉斯哥的《先驱报》(The Herald)上摘取的。 每位演讲者阅读一组不同的报纸句子,每组句子都是通过贪婪算法选择的,该算法旨在最大限度地扩大上下文和语音覆盖范围。 彩虹段落和启发性段落对所有演讲者都是一样的。 彩虹之旅可以在国际英语方言档案(http://web.ku.edu/~idea/readings/rainbow.htm)中找到。 引出段落与用于语音重音存档(http://accent.gmu.edu)的段落相同。 语音口音档案的细节可以在http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf上找到 所有的语音数据都是使用相同的录音设置记录的:一个全向头戴式麦克风(DPA 4035),采样频率为96kHz, 24位,在爱丁堡大学的半暗室中。 所有录音均转换为16位,基于STPK下采样至48 kHz,并手动端点。 该语料库的录制是为了构建基于hmm的文本-语音合成系统,特别是用于使用多个发言者训练的平均语音模型和发言者自适应技术构建基于发言者自适应的语音合成系统。 复制 该语料库是在开放数据共享署名许可(ODC-By) v1.0下授权的。 http://opendatacommons.org/licenses/by/1.0/ http://opendatacommons.org/licenses/by/summary/ 下载 http://dx.doi.org/10.7488/ds/1994 确认 CSTR VCTK语料库由: Christophe Veaux(爱丁堡大学) Junichi Yamagishi(爱丁堡大学) 克里斯汀•麦克唐纳 导致这些结果的研究部分得到了EPSRC EP/I031022/1 (NST)和EP/J002526/1 (CAF)的资助,来自RSE-NSFC的资助(61111130120)和JST CREST (uDialogue)的资助。
2021-12-15 17:00:37 838B VCTK dataset 语音识别 语音数据集
1