Kaldi GStreamer服务器
这是基于Kaldi工具包和GStreamer框架并以Python实现的实时全双工实时语音识别服务器。
广告
塔林工业大学正在寻找一名从事语音识别的博士生,重点是轻度代码转换的语音(例如,芬兰语包含很多英语技术术语)。 。
注意! 该职位仍然开放!
特征
基于websocket的全双工通信:语音进入,出现部分假设(考虑Android的语音输入)
高度可扩展:服务器由主组件和工作程序组成; 每个并发识别会话需要一名工作人员; 可以独立于远程计算机上的主机启动和停止工作程序
可以进行语音分割,即,基于静音,将长语音信号分为较短的片段
支持任意长的语音输入(例如,您可以将实时语音流式传输到其中)
支持Kaldi的GMM和“在线DNN”模型
支持使用大型语言模型对识别格进行记录
支持在请求之间保留声学模型自适应状态
支持无限制的音频编解码器集(实际上
1