《Springer Handbook of Speech Processing》算是语音信号处理领域的百科全书,在语音信号领域有着极其高的地位。 本书适用于学生、研究者以及从事语音信号处理工作的人员。 本书有9部分组成: Part A: Production, Perception, and Modeling of Speech Part B: Signal Processing for Speech Part C: Speech Coding Part D: Text-to-Speech Synthesis Part E: Speech Recognition Part F: Speaker Recognition Part G: Language Recognition Part H: Speech Enhancement Part I: Multichannel Speech Processing
2022-08-29 18:23:23 15.84MB
1
语音去混响一直都是会议场景、临境通信中的重要问题。混响的存在使得语音质量、语音的可懂度大大降低,因此需要特定的算法去对存在混响的室内语音信号进行处理。 《Speech Dereverberation 》本书描述了语音去混响的各种处理方法 第一章:本书内容综述 第二章:混响模型、评价指标 第三章:基于统计模型语音去混响算法 第四章:基于LPC模型语音去混响算法 第五章:基于多麦克风特征值分解语音去混响算法 第六章:自适应盲多通道系统辨识 第七章:多通道声学系统的子代逆矩阵 第八章:移动目标语音的贝叶斯单通道盲去混响 第九章:不使用房间声学信息的语音去混响逆滤波 第十章:用于语音和音频信号去混响的TRINICON 本书适用于学生、研究者或产品开发的工作人员 本书版权为作者所有。
2022-08-29 18:23:22 11.06MB
1
使用Delphi开发的安卓下中文语音合成,一个可以朗读中文的APP就那么简单。资源内包括开发源码。同时,还演示了动态申请权限、沉浸模式、Toast显示内容。
2022-08-24 09:32:48 6.73MB Delphi 安卓语音合成 Speech 语音朗读
1
TTS Text-to-speech(文字转语音)服务C#源码
2022-08-20 22:11:22 13.63MB tts
1
Speech Recognition System 语音识别插件,不需要互联网连接; 语音识别质量高、速度快; 支持24种语言; 跨平台(Windows, iOS, Android, macOS, Linux); 易于整合。支持语言: 英语、印度英语、中国、俄罗斯、法国、德国、西班牙、葡萄牙、希腊、土耳其、越南、意大利、荷兰、加泰罗尼亚、阿拉伯语、波斯语、菲律宾、哈萨克斯坦、瑞典、日本、乌克兰、捷克、印地语、波兰
2022-08-04 16:05:23 84.31MB unity3d SpeechRecogniti 离线语言识别
1
Kaldi GStreamer服务器 这是基于Kaldi工具包和GStreamer框架并以Python实现的实时全双工实时语音识别服务器。 广告 塔林工业大学正在寻找一名从事语音识别的博士生,重点是轻度代码转换的语音(例如,芬兰语包含很多英语技术术语)。 。 注意! 该职位仍然开放! 特征 基于websocket的全双工通信:语音进入,出现部分假设(考虑Android的语音输入) 高度可扩展:服务器由主组件和工作程序组成; 每个并发识别会话需要一名工作人员; 可以独立于远程计算机上的主机启动和停止工作程序 可以进行语音分割,即,基于静音,将长语音信号分为较短的片段 支持任意长的语音输入(例如,您可以将实时语音流式传输到其中) 支持Kaldi的GMM​​和“在线DNN”模型 支持使用大型语言模型对识别格进行记录 支持在请求之间保留声学模型自适应状态 支持无限制的音频编解码器集(实际上
2022-07-27 16:06:16 233.98MB speech-recognition Python
1
Title: Speech Enhancement: Theory and Practice, 2nd Edition Author: Philipos C. Loizou Length: 711 pages Edition: 2 Language: English Publisher: CRC Press Publication Date: 2013-02-25 ISBN-10: 1466504218 ISBN-13: 9781466504219 With the proliferation of mobile devices and hearing devices, including hearing aids and cochlear implants, there is a growing and pressing need to design algorithms that can improve speech intelligibility without sacrificing quality. Responding to this need, Speech Enhancement: Theory and Practice, Second Edition introduces readers to the basic problems of speech enhancement and the various algorithms proposed to solve these problems. Updated and expanded, this second edition of the bestselling textbook broadens its scope to include evaluation measures and enhancement algorithms aimed at improving speech intelligibility. Fundamentals, Algorithms, Evaluation, and Future Steps Organized into four parts, the book begins with a review of the fundamentals needed to understand and design better speech enhancement algorithms. The second part describes all the major enhancement algorithms and, because these require an estimate of the noise spectrum, also covers noise estimation algorithms. The third part of the book looks at the measures used to assess the performance, in terms of speech quality and intelligibility, of speech enhancement methods. It also evaluates and compares several of the algorithms. The fourth part presents binary mask algorithms for improving speech intelligibility under ideal conditions. In addition, it suggests steps that can be taken to realize the full potential of these algorithms under realistic conditions. What’s New in This Edition Updates in every chapter A new chapter on objective speech intelligibility measures A new chapter on algorithms for improving speech intelligibility Real-world noise recordings (on accompanying CD) MATLAB® code for the implementation of intelligibility measures (on accompanying CD) MATLAB and C/C++ code for the implementation of algorithms to improve speech intelligibility (on accompanying CD) Valuable Insights from a Pioneer in Speech Enhancement Clear and concise, this book explores how human listeners compensate for acoustic noise in noisy environments. Written by a pioneer in speech enhancement and noise reduction in cochlear implants, it is an essential resource for anyone who wants to implement or incorporate the latest speech enhancement algorithms to improve the quality and intelligibility of speech degraded by noise. Includes a CD with Code and Recordings The accompanying CD provides MATLAB implementations of representative speech enhancement algorithms as well as speech and noise databases for the evaluation of enhancement algorithms. Table of Contents Chapter 1 Introduction Chapter 2 Discrete-Time Signal Processing and Short-Time Fourier Analysis Chapter 3 Speech Production and Perception Chapter 4 Noise Compensation by Human Listeners Chapter 5 Spectral-Subtractive Algorithms Chapter 6 Wiener Filtering Chapter 7 Statistical-Model-Based Methods Chapter 8 Subspace Algorithms Chapter 9 Noise-Estimation Algorithms Chapter 10 Evaluating Performance of Speech Enhancement Algorithms Chapter 11 Objective Quality and Intelligibility Measures Chapter 12 Comparison of Speech Enhancement Algorithms Chapter 13 Algorithms That Can Improve Speech Intelligibility Appendix A: Special Functions and Integrals Appendix B: Derivation of the MMSE Estimator Appendix C: MATLAB ® Code and Speech/Noise Databases
2022-07-17 22:40:55 17.51MB Speech Enhancement
1
eSpeak NG文字转语音 eSpeak NG是一款紧凑的开源软件文本到语音合成器,适用于Linux,Windows,Android和其他操作系统。 它支持。 它基于乔纳森·达丁顿(Jonathan Duddington)创建的eSpeak引擎。 eSpeak NG使用“共振峰合成”方法。 这允许以小尺寸提供许多语言。 语音清晰,可以高速使用,但不如基于人类语音记录的大型合成器那么自然或流畅。 它还支持Klatt共振峰合成,以及使用MBROLA作为后端语音合成器的功能。 eSpeak NG的提供方式如下: 一个程序(Linux和Windows),用于说出文件或stdin中的文本。 供其他程序使用的版本。 (在Windows上,这是一个DLL)。 Windows的SAPI5版本,因此可以与屏幕阅读器和其他支持Windows SAPI5界面的程序一起使用。 eSpeak NG已被
2022-07-14 15:38:17 14.71MB android text-to-speech speech-synthesis espeak
1
变压器-TTS Pytorch实现 与众所周知的saco2seq模型(如tacotron)相比,该模型的训练速度快约3至4倍,并且合成语音的质量几乎相同。 通过实验确认,每步花费约0.5秒。 我没有使用波网声码器,而是使用tacotron的CBHG模型学习了后网络,并使用griffin-lim算法将频谱图转换为原始波。 要求 安装python 3 安装pytorch == 0.4.0 安装要求: pip install -r requirements.txt 数据 我使用了LJSpeech数据集,该数据集由成对的文本脚本和wav文件组成。 完整的数据集(13,100对)可在下载。 我将和用作预处理代码。 预训练模型 您可以 下载预训练的模型(AR模型为160K,Postnet为100K) 在检查点/目录中找到预训练的模型。 注意图 约15k步后出现对角线对齐。 以下注意图以16
2022-07-14 15:19:35 1.51MB text-to-speech deep-learning pytorch tts
1
语音识别C程序(基于微软Speech SDK) 可以识别“我是学霸”,“你好你好”,“中国制造”,“欢欢喜喜”四条语句。 笔者亲写程序,在VS2010编译运行通过,要求系统为windows及以上,并且系统语言为中文。
2022-07-09 21:52:11 33.81MB 语音识别 C语言 微软SDK VS2010
1