深圳面试java常见笔试题-pycorrector:错别字纠正算法。调用pycorrector接口,使用规则

上传者: 38644141 | 上传时间: 2021-08-24 10:14:15 | 文件大小: 15.56MB | 文件类型: ZIP
深圳面试java常见笔试题 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 问题 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手写输入等。 解决方案 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两

文件下载

资源详情

[{"title":"( 135 个子文件 15.56MB ) 深圳面试java常见笔试题-pycorrector:错别字纠正算法。调用pycorrector接口,使用规则","children":[{"title":"short_result.png <span style='color:#111;'> 162.91KB </span>","children":null,"spread":false},{"title":"erweima.png <span style='color:#111;'> 93.29KB </span>","children":null,"spread":false},{"title":"peoplecorpus.png <span style='color:#111;'> 937.50KB </span>","children":null,"spread":false},{"title":"short_train.png <span style='color:#111;'> 368.13KB </span>","children":null,"spread":false},{"title":"seq2seq_train.png <span style='color:#111;'> 455.23KB </span>","children":null,"spread":false},{"title":"......","children":null,"spread":false},{"title":"<span style='color:steelblue;'>文件过多,未全部展示</span>","children":null,"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明