文本分类
@作者:明亮的安静@Email:sina dot com的brighthush
英文自述文件
项目介绍
这是一个用于中文文本分类的python项目。 我完成了这个项目作为自然语言理解课程的家庭作业。
在这个实验中,我使用了搜狗-文本-分类开放语料库。 我使用 TF/IDF 和信息增益作为特征提取算法。 由于我很懒,所以只实现了两个简单的分类算法,它们是 K-Nearest-Neighbour 和朴素贝叶斯分类。
在提取文本特征时,我们总是需要将句子分割成单词。 我用jieba做分词。 你也可以从获取这个模块。
代码中的命名约定
modeule_name, package_name, method_name, function_name, instance_var_name, function_parameter_name, local_var_name globa_var_n
2021-12-29 16:28:12
12KB
Python
1