新词识别问题的解决方案主要有两种,一种是基于概率统计的,另一种是基于规则的。本文在两者的基础上,实现统计与规则相结合的新词识别检测问题。首先从熟语料中构建N元组候选词库,然后对候选词库分别进行规则过滤,互信息过滤以及位置成词率过滤,再经过N元组重叠标记得到各自不同的新词表。最后综合三种方法,实现统计与规则相结合的新词识别算法,实验结果表明新词识别准确率达到88%。
2021-10-24 16:44:03 924B 汉语自动分词
1