情感文本转语音的深度学习
关于我们尝试使用深度学习方法进行情感文字转语音的摘要
内容
数据集
数据集
演讲人数
情绪化
话语数量
不重复提示数
期间
语言
评论
优点
缺点
24(12女,12男)
8(镇静,中立,快乐,悲伤,愤怒,恐惧,惊喜和恶心)
1440
2个
约1小时
英语
每个说话者都有4种表达中性情绪的声音,而8种说话则包含所有其他情绪的声音,因此每个说话者有60种言语
容易获得
包含的情绪很容易解释
话语非常有限
词汇不佳
用不同的声音说出相同的话
5(3男,2女)
5(中立,逗乐,生气困,厌恶)
6914(1568、1315、1293、1720、1018)
1150
约7小时
英文,法文(1名男性)
尝试大型语料库进行情感表达
逗乐的情绪包含非语言提示,例如咯咯笑等,这些提示不会显示在笔录中
同样,困倦也有打哈欠的声音。
我们免费提供的唯一大规模情感语料
1