多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1