深圳面试java常见笔试题 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 问题 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手写输入等。 解决方案 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两
2021-08-24 10:14:15 15.56MB 系统开源
1
现在越来越多的人使用电脑写作,包括写小说、写文章、写公众号等,而输入法的灵活也使我们产生出大部的错别字,而今天这一份数据库可以做成小程序或功能来检查内容是否存在词语错别字
2021-06-29 17:36:25 136KB 错别字 写作检查 错字检查 汉字检查
1
错别字库用于测试接口
2021-05-14 15:00:31 30KB 字库
1
医学领域的常见错别字,可用于医学相关文本识别的错别字纠正,配合正确词组生成训练样本,可利用深度学习决机器学习进行错别字识别。
2021-04-29 01:33:45 230KB nlp 医疗 深度学习
1
接口API文档-202103-JCJC人工智能错别字校对系统技术接口文档4.5.pdf
2021-04-24 17:01:22 191KB 错别字检测 错别字
1
中文错别字纠正工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字
2021-03-24 16:58:00 29.08MB Python开发-自然语言处理
1
错别字检查客户端(开源)
2019-12-21 20:27:46 1MB 错别字
1