简单的朴素贝叶斯垃圾邮件分类算法(python实现),另外上传的有垃圾邮件训练数据集,供大家下载。
1
bayes.py为主体代码,利用终端输入python调用程序,代码中包含中文注释。也包含测试集与训练集。
2021-06-30 19:07:04 12KB 贝叶斯算法 机器学习
1
英文垃圾邮件分类机器学习篇——朴素贝叶斯、SVM、逻辑回归、随机森林、XGBoost
2021-06-16 17:01:23 263KB 垃圾邮件 机器学习 分类
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类的方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。笔者找到了较好的数据集,通过处理数据,将垃圾邮件向量化并训练模型,得到了较好的训练结果。同时,通过尝试不同分类器的效果,笔者也做出了统计图用于比较优劣。
1
包括normal.txt 和spam.txt两个文件,分别表示有效邮件文本和垃圾邮件文本,两个文件各含有25封邮件内容
2021-06-14 21:44:14 5KB Spark MLlib
1
机器学习编程作业垃圾邮件分类.7z
使用到的数据集是I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, George Paliouras和 C.D. Spyropoulos的 "An Evaluation of Naive Bayesian Anti-Spam Filtering"中使用到的垃圾邮件语料库:lingspam_public。 stopwords我是直接调用的,后续在文件中有另外增加无效词。 详细信息可以参看我的博文:https://blog.csdn.net/qq_43262059/article/details/117379888
2021-05-29 14:10:19 3.65MB KNN 垃圾邮件分类 机器学习 数据挖掘
1
BayesSpam python实现基于贝叶斯的简单垃圾邮件分类 在400封邮件(正常邮件与垃圾邮件各一半)的测试集中测试结果为分类准确率95.15%,在仅仅统计词频计算概率的情况下,分类结果还是相当不错的。 1、准备工作 python3.4开发环境; 结巴分词工具: 2、贝叶斯公式 我们要做的是计算在已知词向量$w=(w_1,w_2,...,w_n)$的条件下求包含该词向量邮件是否为垃圾邮件的概率,即求: $P(s|w),w=(w_1,w_2,...,w_n)$ 其中,$s$表示分类为垃圾邮件 根据贝叶斯公式和全概率公式, $P(s|w_1,w_2,...,w_n)$ $=\frac {P(s,w_1,w_2,...,w_n)}{P(w_1,w_2,...,w_n)}$ $=\frac {P(w_1,w_2,...,w_n|s)P(s)}{P(w_1,w_2,...,w_n)}$ $=\
2021-05-26 13:22:05 17.55MB 附件源码 文章源码
1
从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05 12KB 邮件分类 中文 语料 贝叶斯
1
该论文中详细介绍了基于朴素贝叶斯的垃圾邮件分类过程,以及五折交叉验证的评价指标,并包含完整的代码,python格式,是一个学习朴素贝叶斯方法不错的实例。
2021-05-15 21:32:40 325KB 朴素贝叶斯 交叉验证 垃圾邮件分类
1