g2pM
这是我们论文 ( Interspeech 2020 )的官方资料库。
安装
pip install g2pM
CPP数据集
在数据文件夹中,有[train / dev / test] .sent文件和[train / dev / test] .lb文件。 在* .sent文件中,每行对应一个句子,并且在复音字符的左侧和右侧添加特殊符号(U + 2581)。 对应字符的发音与* .lb文件位于同一行。 对于每个句子,可以有多个和弦字符,但是我们随机选择仅一个和弦字符进行注释。
要求
python> = 3.6
麻木
用法
如果要删除表示音调的所有数字,请设置tone = False。 默认设置为tone = True。 如果要拆分所有非中文字符(例如,数字),请设置char_split = True。 默认设置为char_split = False。
>>> from g2p
2022-09-19 13:06:16
6.05MB
Python
1