深圳面试java常见笔试题
pycorrector
中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。
pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。
问题
中文文本纠错任务,常见错误类型包括:
谐音字词,如
配副眼睛-配副眼镜
混淆音字词,如
流浪织女-牛郎织女
字词顺序颠倒,如
伍迪艾伦-艾伦伍迪
字词补全,如
爱有天意-假如爱有天意
形似字错误,如
高梁-高粱
中文拼音全拼,如
xingfu-幸福
中文拼音缩写,如
sz-深圳
语法错误,如
想象难以-难以想象
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种,
其中'形似字错误'主要针对五笔或者笔画手写输入等。
解决方案
规则的解决思路
中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;
错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两
2021-08-24 10:14:15
15.56MB
系统开源
1