上传者: 42122306
|
上传时间: 2022-02-10 16:18:17
|
文件大小: 8.27MB
|
文件类型: -
利用CRF++进行中文分词
维护者:
维新公众号:Python爬虫与算法
语料
人民日报中文分词语料
微软中文分词语料
训练集与测试集的比例为9:1,具体的改写脚本可以参考read_segment_corpus.py。
CRF模型
工具采用CRF++,训练命令如下:
crf_learn -f 3 -c 4.0 template train.data model -t
模型评估结果
accuary: 0.96405717503858
p: 0.9184067155248071
r: 0.9206969935013926
f1: 0.9195504284452864
classification report:
precision recall f1-score support
Char 0.92 0.92