使用哈工大的ltp,少不了分词模型,由于ltp_data全量模型包太大,经常遇到下载不下来的问题,可以通过下载cws.model直接解决。该文件需要放置到全英文名的路径下才能用:
import pyltp
from pyltp import Segmentor #导入Segmentor库
math_path = "D:\ltp340\cws.model" #LTP分词模型库
segmentor = Segmentor() #实例化分词模块
segmentor.load(math_path) #加载分词库
words = segmentor.segment("中国是一个自由、和平的国家")
print(' '.join(words).split()) #分割分词后的结果
1