无需复杂的配置过程,一键安装pypi_kenlm,适用于Python3.8
2025-04-15 22:30:36 204KB pypi_kenlm_py38
1
无需复杂的配置过程,一键安装pypi_kenlm,适用于Python3.7
2024-06-02 10:40:35 203KB pypi_kenlm_py37
1
实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果,开箱即用
2023-10-13 18:19:05 13.26MB 数据集
自定义中文语料,约2千万条数据,用于训练kenlm模型,使用地址:https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
2022-11-17 19:27:15 287.19MB 中文语料 kenlm 语言模型
kenlm的安装
2021-12-21 09:13:54 354KB 简单
1
统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm训练速度也更快,号称单机版训练超级快,支持大规模的语料训练,文件的输入格式一行行以空格隔开的文本。kenlm训练语言模型用的是传统的“统计+平滑”的方法。
2021-11-21 21:05:38 5.91MB ngram kenlm xun
1
编译好的kenlm
2021-10-15 11:09:04 10.21MB kenlm 语言模型 语音识别
1
| 简体中文 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 Guide Question 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手
2021-07-15 12:34:01 13.6MB bert spelling-errors electra error-detection
1