深度学习语音识别,基于tensorflow的语音识别程序。程序示例简单实用,便于理解
2022-03-20 21:31:20 22KB python; speech recognition
1
IBM Watson-QA-Speech Node.js应用程序(使用IBM Bluemix构建),该应用程序使用IBM Watson服务通过语音界面回答与健康相关的问题。 使用的服务: 演示: : 试一试! 单击下面的按钮以插入到IBM DevOps Services中,并在Bluemix上部署您自己的该应用程序副本。 浏览器要求 这需要HTML5音频标签和getUserMedia API。 如果您的浏览器不支持以下两种功能之一,则里程会有所不同。 大多数移动浏览器都存在这两个问题。 您可以在以下位置查看您的浏览器是否支持以下任一功能: 执照 此示例代码已在Apache 2.0下获得许可。 完整的许可证文本在可用。 贡献 请参阅。 开源@ IBM 在上找到更多开源项目 原始演示 这是为IBM QA服务组装的更新的演示。 原始演示可在以下网址获得: ibm-watson
2022-03-20 16:55:38 165KB JavaScript
1
Pocketsphinx Python Pocketsphinx是语音识别开源工具包的一部分。 该软件包为使用和创建的CMU 和库提供了python接口。 支持平台 视窗 Linux Mac OS X 安装 # Make sure we have up-to-date versions of pip, setuptools and wheel python -m pip install --upgrade pip setuptools wheel pip install --upgrade pocketsphinx 提供更多用于手动安装的二进制发行版。 用法 现场语音 这是一个迭代器类,用于从麦克风进行连续识别或关键字搜索。 from pocketsphinx import LiveSpeech for phrase in LiveSpeech (): print ( phr
2022-03-16 20:12:37 34KB python voice speech speech-recognition
1
Speech_Emotion_Recognition
2022-03-14 16:14:48 20.41MB Python
1
使用指令的操作对SVM、MLP、LSTM算法进行了训练和测试的操作,采用CASIA数据集进行训练,需要安装python的语音处理报librosa,还有可以使用opensmile的部分,内容较为丰富
2022-03-14 00:09:48 73.04MB 语音情感识别 SVM LSTM MLP
1
Glow-TTS:通过单调对齐搜索生成文本到语音的生成流 金在贤,金成元,江Jung和尹旭 在我们最近的,我们提出了Glow-TTS:通过单调对齐搜索从文本到语音的生成流。 最近,已经提出了文本到语音(TTS)模型,例如FastSpeech和ParaNet,用于从文本中并行生成梅尔频谱图。 尽管具有优势,但是如果没有自回归TTS模型作为其外部调整器的指导,则无法训练并行TTS模型。 在这项工作中,我们提出了Glow-TTS,这是一种基于流的并行TTS生成模型,不需要任何外部对准器。 通过将流和动态编程的特性相结合,所提出的模型自行搜索文本和语音的潜在表示之间最可能的单调对齐方式。 我们证明,强制执行硬单调对齐方式可以使鲁棒的TTS泛化为长话,而使用生成流则可以实现快速,多样化和可控制的语音合成。 Glow-TTS在合成时具有可比较的语音质量,比自回归模型Tacotron 2快了一个数量级
2022-03-11 18:01:56 1.62MB text-to-speech deep-learning pytorch tts
1
这是C#的语音播报dll文件,当时找了好多都找不到,2017,2019不支持Nu_Get包下载,所以来分享一波
2022-03-10 16:25:58 267KB dll
1
演讲演示 项目地址: : 文档地址: 语音识别: ://ai.baidu.com/docs#/ASR-API/top 语音合成: ://ai.baidu.com/docs#/TTS-API/top 百度语音rest api调用语音识别,语音合成示例 Rest API接口为http访问,任意操作系统,任意语言,只要能对baidu域名发起http请求的,均可以使用。 百度语音合成的接口支持跨域,但是获取令牌的接口不支持。浏览器直接发请求的示例见: : 简介 以JAVA PHP python C BASH作为示例,展示api的调用过程,选择一个运行即可。 目录结构 +--rest-api
2022-03-09 20:04:55 3.02MB rest-api speech-recognition baidu speech-to-text
1
演示语音情感应用 演示语音情感检测器
2022-03-08 16:48:26 9.28MB Hack
1
OpenASR的 基于pytorch的end2end语音识别系统。 主要体系结构是 。 特征 最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。 良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug,LST,并在ASHELL1上实现了良好的性能。 AISHELL1测试的基准CER为6.6,优于ESPNet。 模块化设计。 我们将系统分为几个模块,例如培训师,指标,进度表,模型。 扩展和添加功能很容易。 End2End 。 特征提取和标记化是在线的。 系统直接处理波形文件。 因此,该过程大大简化了。 相依性 python> = 3.6 火炬> = 1.1 pyyaml> = 5.1 tensorflow和tensorboardX进行可视化。 (如果不需要可视化结果,可以在src / utils.py中将TENSORBOARD_
2022-03-08 11:24:36 2.24MB speech transformer speech-recognition las
1