关键字识别(KWS)是智能设备上终端和服务机器人的人机交互的主要组成部分,其目的是最大程度地提高检测精度,同时又要减小占用空间。 在本文中,基于DenseNet提取局部特征图的强大功能,我们为KWS提出了一种新的网络体系结构(DenseNet-BiLSTM)。 在我们的DenseNetBiLSTM中,DenseNet主要用于获取局部特征,而BiLSTM用于获取时间序列特征。 通常,DenseNet用于计算机视觉任务,它可能会破坏语音音频的上下文信息。 为了使DenseNet适合KWS,我们提出了一个变体DenseNet,称为DenseNet-Speech,它在过渡层的时间维度上删除了池以保留语音时间序列信息。 此外,我们的DenseNet-Speech使用密度较小的块和过滤器来使模型保持较小,从而减少了移动设备的时间消耗。 实验结果表明,DenseNet-Speech的特征图可以很好地维护时间序列信息。 就Google Speech Commands数据集的准确性而言,我们的方法优于最新方法。 对于具有223K可训练参数的20条命令识别任务,DenseNet-BiLSTM能够达到96.6%的精度。
2021-04-13 17:31:45 821KB keyword spotting speech recognition
1
很棒的语音增强 语音前端列表,例如语音增强\语音分离\声源定位 语音分离 Tasnet:时域音频分离网络,用于实时单通道语音分离 Conv-TasNet:用于语音分离的超越理想的时频屏蔽 双路径RNN:用于时域单通道语音分离的高效长序列建模 DANet:用于单通道语音分离的深层吸引网络(DANet) TAC端到端麦克风排列和数目不变的多通道语音分离 uPIT进行语音分离:使用发声级PIT进行语音分离 LSTM_PIT_Speech_Separation 深度集群 小行星:面向研究人员的基于PyTorch的音频源分离工具套件 声音分离(Google) 声音分离:使用Pytorch基于深度学习的语音源分离 ONSSEN:开源语音分离和增强库 音乐源分离 歌声分离 盲源分离技术比较 FastICA 基于本地化和优先级的双耳分离算法 卷积传递函数不变SDR 语音
2021-04-05 20:30:18 4KB
1
演讲 文字转语音(TTS)和自动语音识别(ASR)。 链接到Doxygen生成的文档: : 安装 在可以找到从源代码安装的安装说明。 用法 有关如何启动或配置它的信息: 如果要构建新的语言模型,请阅读 更多示例: 要查看其他程序如何调用speechRecognition和Espeak并通过yarp对其进行配置,您可以查看代码的这一部分。 贡献 发布问题 阅读 叉与拉请求 按照,在master分支上创建功能分支( git checkout -b my-new-feature ) 提交您的更改 推送到分支( git push origin my-new-feature ) 创建一个新的拉取请求 地位 相似及相关项目
2021-04-03 22:05:21 73.11MB text-to-speech automatic-speech-recognition C++
1
该书是语音处理领域最权威的书籍。 包括内容:语音处理,权威,语音识别,说话人识别,说话人合成
1
Speech Recognition Using Deep Neural Networks: A Systematic Review ALI BOU NASSIF
2021-03-31 15:22:09 13.72MB Speech Recognition Deep NeuralNetworks
了解语音识别的客户端隐私权衡 相应代码。 这是我们生成的样本的。 背景 现有的确保用户语音数据隐私的方法主要集中在服务器端方法上。 尽管改善服务器端的隐私可以减少某些安全问题,但用户仍然无法保持对客户端是否确保隐私的控制。 在本文中,我们定义,评估和探索了语音识别中客户端隐私的技术,其目标是在离开客户端设备之前保留原始语音数据的隐私。 首先,我们在确保性能,计算要求和隐私之间的客户端隐私方面正式权衡了几个权衡。 使用我们的权衡分析,我们对现有方法进行了大规模的实证研究,发现它们在至少一个度量标准上达不到要求。 我们的结果要求在这一关键领域进行更多研究,以迈向跨移动设备大规模大规模安全部署现实语音识别系统的一步 笔记 我们使用作为我们的ASR模型。 到GAN语音转换模型。 到VAE语音转换模型。 我们使用和来构建我们的信号处理方法。 详细信息在我们的中描述。 运行src/main.
2021-03-30 13:08:46 11KB Python
1
Deep_Learning_for_Distant_Speech_Recognition Mirco Ravanelli
2021-03-19 15:15:36 5.29MB DeepLearning Distant Speech Recognition
主要介绍了python之语音识别speech模块,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2021-03-18 20:56:56 267KB python 语音识别 python speech模块
1
很有参考价值 1、Speech SDK 5.1 2、Speech SDK 5.1 中文语言包 3、先安装Speech SDK5.1 再安装Speech SDK5.1 中文语言包。完成安装后,解压后有详细安装文档。可以参考一下
2021-03-16 19:55:54 149.1MB C#
1
仇恨言论 @inproceedings {讨厌的仇恨,标题= {自动仇恨语音检测和令人讨厌的语言问题},作者= {戴维森,托马斯和沃姆斯利,达娜和梅西,迈克尔和韦伯,英格玛},书名= {第十一届国际AAAI会议论文集在网络和社交媒体上},系列= {ICWSM '17},年份= {2017},位置= {加拿大蒙特利尔},页面= {512-515}}
2021-03-15 21:08:54 1.48MB JupyterNotebook
1