要求:
1 采用基于语言模型的最大概率法进行汉语切分。
2 切分算法中的语言模型可以采用n-gram语言模型,要求n >1,并至少采用一种平滑方法;
代码:
废话不说,代码是最好的语言
import re
import math
MAX_SPLITLEN = 4#最大切分长度
corpus_lib = ''#corpus:语料
def init_corpus_lib(path): # 初始化语料库
global corpus_lib
with open(path, 'r', encoding='utf-8', errors='ignore') as file:
corpus_lib
1