在最新版的中科分词系统基础上,进行了改进,加入用户词典和停用词,并进行文件无乱码读写,输出分词结果,效果不错,是情感分析的良好基础。这一部分,我用来写作为硕士论文的数据处理基础。在此分享给各位,欢迎指教
2019-12-21 18:49:57 3KB 分词系统 用户词典 停用词
1
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
2015-08-19 00:00:00 5.58MB NLPIR 分词 过滤停用词
1