Kaldi GStreamer服务器 这是基于Kaldi工具包和GStreamer框架并以Python实现的实时全双工实时语音识别服务器。 广告 塔林工业大学正在寻找一名从事语音识别的博士生,重点是轻度代码转换的语音(例如,芬兰语包含很多英语技术术语)。 。 注意! 该职位仍然开放! 特征 基于websocket的全双工通信:语音进入,出现部分假设(考虑Android的语音输入) 高度可扩展:服务器由主组件和工作程序组成; 每个并发识别会话需要一名工作人员; 可以独立于远程计算机上的主机启动和停止工作程序 可以进行语音分割,即,基于静音,将长语音信号分为较短的片段 支持任意长的语音输入(例如,您可以将实时语音流式传输到其中) 支持Kaldi的GMM​​和“在线DNN”模型 支持使用大型语言模型对识别格进行记录 支持在请求之间保留声学模型自适应状态 支持无限制的音频编解码器集(实际上
2022-07-27 16:06:16 233.98MB speech-recognition Python
1
docker-kaldi-gstreamer-server kaldi 。 概要 此 dockerfile 自动构建主服务器和工作服务器,这些服务器在来自 Tanel Alumäe 的解释,并由他自己在。 使用此项目,您将能够在几分钟内运行自动语音识别 (ASR) 服务器。 注意力 这里将设置的 ASR 服务器需要一些。 在我将在下面详细介绍的 docker 图像中,不包含 kaldi 模型。 您的机器上必须有这些模型。 您还必须有一个描述这些模型的 yaml 文件。 请、和查看一些示例,以了解如何编写您自己的 yaml 文件。 有一些 kaldi 模型可供下载。 我测试了我的设置与此,这是英语。 我正在尝试为巴西葡萄牙语构建模型,但直到现在我还没有找到足够的免费/开放资源。 安装码头工人 请参考 。 获取图像 从 Docker Hub 拉取镜像(~ 900MB): docke
2021-12-20 21:38:51 461KB docker kaldi asr kaldi-gstreamer-server
1