如果Apollo本地上没有examples的文件结构,则需要此examples文件夹结构进行本地配置
2022-09-28 16:00:43 3KB Apollo
1
多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1
眼动仪(说话者) 这是一个ROS(winros)程序包,它将来自Tobii EyeX眼动仪的凝视数据发布到/ eyetracker主题中。 安装win_ros 要被更新 按照以下说明安装win_ros: ://wiki.ros.org/win_ros/hydro/Msvc Overlays(有关前提条件,请参阅下一点) 按照以下说明安装已编译的SDK: ://wiki.ros.org/win_ros/hydro/Msvc Compiled SDK(有关先决条件,请参阅内部要点) 安装编译后的SDK的先决条件。 按照以下说明安装win_python_build_tools 0.2.5: ://wiki.ros.org/win_python_build_tools/hydro 根据Windows SDK 7.1,建议您安装Microsoft Visual Stud
2021-11-06 21:25:09 102KB C
1
功能包learning_communation的cpp源码,包括talker.cpp和listener.cpp两个代码,注释详细,供参考
2021-08-19 16:24:14 927B ROS
1
这项与事件相关的潜能(ERP)研究检查了语音识别中上下文相关说话者标准化的时间过程。 我们发现三个ERP组件,即N1(100-220毫秒),N400(250-500毫秒)和后期正向组件(500-800毫秒),它们被推测涉及(a)听觉处理,(b)说话者标准化和词汇检索,以及(c)决策过程/词汇选择。 说话人标准化可能发生在N400的时间窗口中,并且与词汇检索过程重叠。 与非语音上下文相比,无论语音上下文是否具有语义内容,它们都使收听者能够调整到讲话者的音调范围。 以这种方式,语音上下文在潜在的候选词的激活过程中诱导了更有效的说话者归一化,并导致在语音单词识别中更准确地选择了预期的单词。
2021-02-24 18:04:55 1024KB Talker normalization; Tone perception;
1