inaSpeechSegmenter
inaSpeechSegmenter是一个基于CNN的音频分段工具包。
它将音频信号分成语音,音乐和噪音的均匀区域。 语音区域分为使用说话者性别(男性或女性)标记的片段。 男性和女性分类模型针对法语进行了优化,因为他们是使用法语说者进行培训的(说话者性别的声学相关性取决于语言)。 对应于音乐之上的语音或噪声之上的语音的区域被标记为语音。
设计inaSpeechSegmenter的目的是基于男女语音时间百分比估计来执行。
安装
inaSpeechSegmenter是python 3中的框架。仅支持大于或等于3.6的python版本。 可以使用以下过程进行安装:
先决条件
inaSpeechSegmenter需要ffmpeg才能解码任何类型的格式。 可以使用以下命令行完成ffmpeg for ubuntu的安装:
$ sudo apt-get in
1