采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写
2019-12-21 19:38:07 1.91MB 机器学习 中文分词 词性标注 crf
1
程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!
2019-12-21 19:28:15 5.25MB 中文分词、词性标注,聚类
1
仅供学习和研究使用,禁止用于商业行为
2019-12-21 18:53:29 4.64MB 中文分词
1
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
2019-12-21 18:53:25 7.15MB python jieba
1