electron-speech, 在 node 中,轻松进行语音识别 ! 电子语音基于电子的node 语言识别及电子浏览器。失败It说,谷歌已经,关闭了 Chrome 语音API用于在像电子这样的shell 环境中使用,这是依赖于的。其他一些有前途的项目包括::为低功耗设备优化的node 模块,并提供
2021-09-17 18:08:29 4KB 开源
1
unity游戏角色聊天说话气泡控制管理系统Speech Bubble Manager 1.3.0 Requires Unity 2017.2.0 or higher. Speech Bubble Manager is a system that creates and manages speech bubbles through one line of code. Features: Speech bubbles through one line of code 2D and 3D Adapts size to fit text ob ject pooling 4 typ
2021-09-17 15:47:15 287B unity3d 插件 unity插件气泡】
1
语音带宽扩展的分层递归神经网络 论文代码: Ling Zhen-Hua Ling,Yang Ai,Yu Gu和Dai Li-Rong Dai,“使用分层递归神经网络进行语音带宽扩展的波形建模和生成”,关于音频,语音和语言处理的IEEE / ACM交易,第一卷。 26号5,第883-894页,2018年。 ./HRNN_HF是本文中HRNN系统的代码。 ./CHRNN_HF是本文中的CHRNN系统的代码。
2021-09-14 19:51:23 78KB Python
1
Fundamental of speech recognition是Lawrence Rabiner 和Biing-hwang Juang编写的语音识别方面的权威著作,很经典。
2021-09-12 07:36:00 13.29MB 语音识别
1
SEWUNet 通过深波U-Net增强语音 在检查全文。 介绍 在本文中,我们提出了一种端到端的方法来从其原始波形上的语音信号中删除背景上下文。 网络的输入是音频,具有16kHz的采样率,并在5dB到15dB的信噪比内均匀分布地被附加噪声所破坏。 该系统旨在产生具有清晰语音内容的信号。 当前,有多种深度学习架构可用于此任务,从基于频谱的前端到原始波形,其结果令人鼓舞。 我们的方法基于Wave-U-Net体系结构,并对我们的问题进行了一些调整,在初始化主要任务的训练之前,建议通过自动编码器进行权重初始化。 我们表明,通过定量指标,我们的方法优于经典的维纳滤波。 如何使用 有两种使用此存储库的方式:1.使用数据训练自己的模型2.仅将技术应用于具有预先训练的模型的数据 如何训练 tl; dr:以与本文所示相同的方式训练最佳模型的步骤。 将LibriSpeech数据集和UrbanSound8K
1
通过深度学习进行语音分离和提取 此仓库总结了用于语音分离和说话人提取任务的教程,数据集,论文,代码和工具。诚挚地邀请您提出要求。 目录 讲解 [语音分离,李鸿-,2020年] [端到端神经源分离的进展,伊洛,2020] [音频源分离和语音增强,伊曼纽尔·文森特,2018年] [音频源分离,牧野昌司,2018年] [概述论文] 【概述幻灯片] [手册] 数据集 [数据集介绍] [WSJ0] [WSJ0-2mix] [WSJ0-2mix-extr] [WHAM&WHAMR] [LibriMix] [LibriCSS] [SparseLibriMix] [VCTK-2Mix] [CHIME5和CHIME6挑战赛] [音频 [Microsoft DNS挑战] [AVSpeech] [LRW]
1
微软的语音引擎系统 Microsoft Speech Platform 11目前没有内置于操作系统 需要下载Microsoft Speech Platform - Runtime (Version 11)安装来支持语音包,注意里面有x86和x64版,应该根据服务器的操作系统版本来确定安装。我64位机器安装的是x86好用。
2021-09-06 00:40:18 55.17MB 慧慧语音库 TTS运行库
1
Pytorch 上的端到端语音识别 基于 Transformer 的语音识别模型 如果您在工作中使用了本工具包中包含的任何源代码,请引用以下论文。 Winata,GI,Madotto,A.,Wu,CS,&Fung,P.(2019年)。 使用来自并行句子的基于神经的合成数据的代码切换语言模型。 在第23届计算自然语言学习会议(CoNLL)的会议记录中(第271-280页)。 Winata, GI, Cahyawijaya, S., Lin, Z., Liu, Z., & Fung, P. (2019)。 使用 Low-Rank Transformer 的轻量级和高效的端到端语音识别。 arXiv 预印本 arXiv:1910.13923。 (被ICASSP 2020接受) Zhou, S., Dong, L., Xu, S., & Xu, B. (2018)。 使用 Transfor
2021-09-05 18:50:50 106KB end-to-end speech pytorch transformer
1
言语情感识别 卷积递归神经网络的TensorFlow在IEMOCAP数据库上的语音情感识别(SER)实现。为了解决帧情感标签不确定性的问题,我们执行了三种合并策略(最大合并,均值合并和基于注意力的合并)加权池)以生成SER的发声级功能。 这些代码仅在带有GTX-1080 GPU的ubuntu 16.04(x64),python2.7,cuda-8.0,cudnn-6.0上进行过测试。要在计算机上运行这些代码,您需要安装以下依赖项: 张量流1.3.0 python_speech_features 波 cPickle 麻木 斯克莱恩 操作系统 演示版 要运行演示,请在分叉存储库之后,运行以
1
Microsoft Speech SDK 5.1
2021-08-30 08:44:02 67.94MB C# 语音播报 MicrosoftSpeech
1