YoungCorrector 本项目是参考开源框架 ,自己实现了一套基于规则的纠错系统。总体来说,基于规则的文本纠错,性能取决于纠错词典和分词质量。目前与相比,在准确率差不多的情况下,本模型所用的时间会少很多(归功于前向最大匹配替代了直接索引替换字典)。代码还没有完善,还有很多优化的空间,后续会持续更新。。。 中文文本纠错 介绍 文本纠错的核心步骤:错误检测,预期召回,纠错排序。 错误检测:找到某些词是错误的。 初步召回:选出纠错错误词。 纠错排序:对预期词进行排序。 主流的三种方法: 基于规则:pycorrector 基于深度模型:百度纠错系统 基于垂直领域:腾讯DCQC纠错框架 中文纠错需要解决的问题: 谐音字词,如配副眼睛-配副眼镜 擅长音字词,如流浪织女-牛郎织女 字词顺序颠倒倒,如伍迪艾伦-艾伦伍迪 字词补全,如爱有天意-假如爱有天意 形似字错误,如高梁-高粱 中文拼音全拼,如x
2021-12-13 08:06:26 19.88MB 系统开源
1
Project_Of_SRTP 学校的srtp项目--基于语音识别的自动文本纠错系统 这一次更新了代码,完善了各个模块之间调用的关系,设置了主函数,方便使用 现在可以实现文本的自动纠错了,但是没有特别的优化,可能在某些情况下会出现纠错错误的情况,后续会改进。 每个文档里都有详细的说明,每一个部分是做什么的,都写了相关的注释。 使用前应该添加相关的模块,在命令行里面输入下列的代码(以后会增加,这是目前需要安装的模块): pip install requests pip install pypinyin pip install pytrie 录测试样例的同学,要求是采样率16000的音频文件。因为实现了文本的自动纠错,所以这一次需要录一些文本了,句子文章都可以,但是不要太长,百度语音识别的要求是60秒以内的音频文件。先录一些包含三四句或者四五句话的文本。 为了测试我们的代码,所以尽可能的获取错
2021-09-24 14:09:29 4.06MB Python
1
使用Python完成英文字母的纠错系统
2021-04-15 15:05:54 117KB python 纠错系统
1