16bit 16k采样。自己java 写过websocket测试过,调用百度的语音接口,是可以使用的。
2023-03-08 10:47:28 77KB pcm  语音识别
1
该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括CNN-CTC、GRU-CTC、CNN-RNN-CTC,语言模型包含transformer、CBHG,数据集包含stc、primewords、Aishell、thchs30四个数据集。 本项目现已训练一个迷你的语音识别系统,将项目下载到本地上,下载 thchs 数据集并解压至 data,运行 test.py,不出意外能够进行识别,结果如下: the 0 th example. 文本结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2 原文结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xi
2023-03-02 18:14:02 108.36MB 语音识别 深度学习 语音 识别
1
语音识别 使用Web Speech API的语音识别 Web Speech API的SpeechRecognition接口是识别服务的控制器接口; 这也处理从识别服务发送的SpeechRecognitionEvent。 您可以在这里查看项目
2023-03-02 16:59:03 3KB JavaScript
1
Pocketsphinx.js 是一个在浏览器上通过纯 JavaScript 实现语音识别的功能,支持 Chrome 和 Firefox 浏览器。提供录音的功能。 特性: 100% 纯 JavaScript API, 可通过 Web Workers 录制 支持 PocketSphinx 所支持的所有声音模型 支持大多数 PocketSphinx 的命令行参数 支持 JavaScript 有限状态语法 FSG 输入 支持在编译时的来自文件的统计语言模型 支持键盘监测 可用于实时识别的可选音频录制库
2023-03-02 10:54:21 4.68MB pocketsphinx.js
1
深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.rar 深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.rar 深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.rar
2023-03-01 16:30:51 19.68MB 深度学习
1
鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况. 依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3 个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用.
2023-02-27 23:52:20 784KB 自然科学 论文
1
语音信号处理 第二章 语音信号处理的基础知识 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析 (1)语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为语言学(linguistics)。 (2) 语音中各个音的物理特性和分类的研究称为语音学(phonetics) 。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。 人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。
1
从视频中提取音频 安装 moviepy pip install moviepy 相关代码: audio_file = work_path + '\\out.wav' video = VideoFileClip(video_file) video.audio.write_audiofile(audio_file,ffmpeg_params=['-ar','16000','-ac','1']) 根据静音对音频分段 使用音频库 pydub,安装: pip install pydub 第一种方法: # 这里silence_thresh是认定小于-70dBFS以下的为silence,发现小于 s
2023-02-25 15:11:37 96KB 百度 语音识别
1
AVSpeech是一个新的,大规模的视听数据集,包括语音视频剪辑没有干扰的背景噪声。视频片段长3-10秒,每个片段中可听到的声音都属于一个说话的人,在视频中可以看到。总的来说,这个数据集包含了大约4700个小时的视频片段,来自于YouTube上总共290k个视频,涵盖了各种人、语言和面部姿势。
2023-02-24 11:40:35 8.48MB 语音识别
1
【语音识别】拨号语音识别含Matlab源码
2023-02-23 21:00:14 516KB
1