免费口语数据集(FSDD)
一个简单的音频/语音数据集,由8kHz的wav文件中的口头录音组成。 修整录音,使其在开始和结束时几乎保持静音。
FSDD是一个开放的数据集,这意味着它将随着时间的推移随着数据的添加而增长。 为了实现可重复性和准确的引用,使用Zenodo DOI和git tags对数据集进行版本控制。
当前状态
6位演讲者
3,000个录音(每个扬声器每个数字50个)
英语发音
组织
文件以以下格式命名: {digitLabel}_{speakerName}_{index}.wav示例: 7_jackson_32.wav
会费
请贡献您的自制录音。 所有录音应为单声道8kHz wav文件,并进行修剪以使静音降至最低。 不要忘记使用发言人元数据更新metadata.py
要添加数据,请按照acquire_data/say_numbers_prompt.py的记录说明进行a
1