语音识别系统 适用于 CMU 课程 11756/18799d/J1799d THEORY AND PRACTICE OF SPEECH RECOGNITION SYSTEMS 作者 Shitao Weng : Zhi Liu : 基于 HMM 的顺序数字识别系统。
2021-12-13 12:34:20 257KB C++
1
语音_识别_系统 简单的 MFCC + HMM 语音识别系统。 还没有完成。
2021-12-13 12:33:10 1.69MB C++
1
用卷积滤波器matlab代码语音子带编码 在该项目中,设计了具有自适应量化功能的子带滤波器组,用于压缩具有固定点数的立体声音频信号。 该报告涉及具有以下规范的系统的实现:立体声,16khz fs,24kbits / s和150ms最大延迟。 滤池 过渡带完全由阻带和滤波器阶中的特定衰减决定。 如果需要更高的阻带衰减或更陡峭的过渡带,则需要使用更高的滤波器阶数,从而引入更多的等待时间。 此外,子带中的良好性能取决于频率选择性。 在较高的频率下,屏蔽效果会散布在更宽的范围内,从而减少所需的量化位数。 最终,通过使用较低的滤波器阶数,会引入较高的重叠量和较低的频率选择性,从而导致较低的PESQ / SNR分数。 毕竟,相同的信息都使用不同数量的位进行编码,以利用屏蔽效果。 另一方面,较高的过滤器长度会导致较高的复杂度和等待时间。 后者实际上是一个软约束,即150ms,可以很容易地获得。 它可以分为两个部分。 一方面,延迟是由缓冲区通信引起的,另一方面,是由于卷积引起的延迟(大约是滤波器长度除以2的因子)。 通过遍历多个过滤器长度,可以确定过滤器抽头的数量。 数码PCM 本应用中使用的量化算法
2021-12-12 14:03:47 2.79MB 系统开源
1
做语音增强了两种基本方法,kalman滤波和维纳滤波的方法。希望对学习增强的同学有帮助。
2021-12-12 10:44:45 5KB Speech Enhancement of WienerScalar
1
基于神经网络的语音分离必读论文和教程列表 该存储库包含用于纯语音分离和多模式语音分离的论文。 通过Kai Li(如果有任何建议,请与我联系!电子邮件: )。 提示:对于语音分离初学者,我建议您阅读“深度群集”和“ PIT&uPIT”作品,这将有助于理解问题。 如果您发现以下某些文章的代码,欢迎添加链接。 纯语音分离 :check_mark: [用于单声道信号源分离的蒙版和深度递归神经网络的联合优化,黄波森,TASLP 2015] :check_mark: [用于单声道语音分离的复杂比率掩盖,DS Williamson,TASLP,2015年] :check_mark: [深度聚类:用于分段和分离的区分嵌入,JR Hershey,ICASSP 2016] :check_mark: [使用深度聚类的单通道多扬声器分离,Y Isik,Interspeech 2016] :check_mark: [用于与说话者无关的多说话者语音分离的深度模型的置换
1
多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1
Chrome 71更新 由于用户滥用了语音合成API(ADS,虚假系统警告),因此Google决定在未由用户手势(点击,触摸等)触发的情况下删除该API在浏览器中的使用。 这意味着,例如,如果artyom.say("Hello")未包装在用户事件中,则无法调用它。 因此,在每次加载页面时,用户将需要在每个页面上至少单击一次以允许在网站中使用该API,否则将引发以下异常:“ [Deprecation] speechSynthesis.speak()是未经用户激活的自M71以来,自2018年12月左右起不再允许使用。有关更多详细信息,请参见 ” 有关更多信息,请访问Bug或。 要绕过此错误,用户将需要与网站进行至少一次手动交互,例如单击一次: < button id =" btn " > Allow Voice Synthesis </ button > < script src ="
1
混合语言语音识别 来自团队: 当中国学生在各州学习时,我们发现自己的说话习惯发生了变化-英文单词和短语很容易滑入汉语句子中。 我们非常感到需要具有能够处理多语言语音到文本翻译的消息传递应用程序。 因此,在此任务中,我们将开发此功能-使用深度学习架构(DNN,CNN,LSTM)构建模型,以将多语言音频(在同一句子中具有中英文)正确地翻译成文本。 - 表中的内容: 目录说明 代码开关: 包含用于构建系统的脚本 描述: LDC2015S04,我们的数据集描述 笔记: 我们关于Kaldi相关timit研究笔记,包括timit和librispeech 建立系统的资源 数据源: 基准模型文件: 其他与代码转换有关的论文: 功能改进相关论文: 有趣的Python Kaldi包装器将被检查: 卡尔迪推荐的食谱要检查: 卡尔迪资源: 卡尔迪(Kaldi)范例 解码 数据准备: 文档名称: 图案
2021-12-07 13:45:37 1.07GB 系统开源
1
官方离线安装包,亲测可用
2021-12-07 10:01:40 49KB rpm
jackpair:具有模拟音频接口的p2p语音加密设备,适用于GSM手机
2021-12-07 09:56:20 3.85MB encryption p2p speech stm32f4
1