上传者: zhujiayou
|
上传时间: 2021-05-07 18:27:55
|
文件大小: 66.33MB
|
文件类型: ZIP
国科大 徐君 网络数据挖掘 大作业
个人报告+代码+数据,可参考
README
运行环境:
Python 2.7.12
jieba 0.39
numpy 1.13.3
scikit-learn 0.19.1
scipy 1.0.0
请参照此运行环境进行运行前配置。
1.运行TextProcess.py获得classifiedLabel.txt、trainSetMsg.txt以及testSetMsg.txt,得到文本处理后的规则文本数据文件;
2.运行crossValidation.py进行交叉验证;
3.其中SVM算法运行时间较长(6-7小时左右),可以注释掉或者减少数据规模来测试;
4.可调用分类器中的predict方法来利用训练后的分类器进行分类预测(垃圾短信识别)。