使用到的数据集是I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, George Paliouras和 C.D. Spyropoulos的 "An Evaluation of Naive Bayesian Anti-Spam Filtering"中使用到的垃圾邮件语料库:lingspam_public。
stopwords我是直接调用的,后续在文件中有另外增加无效词。
详细信息可以参看我的博文:https://blog.csdn.net/qq_43262059/article/details/117379888
1