概述
1.本程序用于中文新词发现。不依赖于已有词典、词库,输入中文文本,即可发现中文新词,属非监督式学习。
2.本程序支持中文2字新词、3字新词和4字新词的发现。
3.需要python3及以上。
算法参考
基于大规模语料的新词发现算法,顾森,《程序员》
不过,在顾森文章中提及的次数阈值、凝固度阈值、信息熵阈值是实数值,本程序支持基于统计的比值。
本程序,次数阈值、凝固度阈值、信息熵阈值参数设置分别为-c、-b、-e(统计比值),-C、-B、-E(实数值)。
使用
cnwd.py Input Output [options]
options:
-c CountThresholdPercent,(0,1),default=0.5
-C CountThreshold
-b BindThresholdPercent,(0,1),default=0.5
-B BindThreshol
2022-04-23 20:27:39
2.28MB
Python
1