上传者: 38713996
|
上传时间: 2021-11-22 16:13:11
|
文件大小: 155KB
|
文件类型: -
逆向最大匹配方法
有正即有负,正向最大匹配算法大家可以参阅//www.jb51.net/article/127404.htm
逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。
逆向最大匹配算法python实现:
分词文本示例:
分词词典words.xlsx示例:
#!/u