朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类的方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。笔者找到了较好的数据集,通过处理数据,将垃圾邮件向量化并训练模型,得到了较好的训练结果。同时,通过尝试不同分类器的效果,笔者也做出了统计图用于比较优劣。
1
包括normal.txt 和spam.txt两个文件,分别表示有效邮件文本和垃圾邮件文本,两个文件各含有25封邮件内容
2021-06-14 21:44:14 5KB Spark MLlib
1
机器学习编程作业垃圾邮件分类.7z
使用到的数据集是I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, George Paliouras和 C.D. Spyropoulos的 "An Evaluation of Naive Bayesian Anti-Spam Filtering"中使用到的垃圾邮件语料库:lingspam_public。 stopwords我是直接调用的,后续在文件中有另外增加无效词。 详细信息可以参看我的博文:https://blog.csdn.net/qq_43262059/article/details/117379888
2021-05-29 14:10:19 3.65MB KNN 垃圾邮件分类 机器学习 数据挖掘
1
BayesSpam python实现基于贝叶斯的简单垃圾邮件分类 在400封邮件(正常邮件与垃圾邮件各一半)的测试集中测试结果为分类准确率95.15%,在仅仅统计词频计算概率的情况下,分类结果还是相当不错的。 1、准备工作 python3.4开发环境; 结巴分词工具: 2、贝叶斯公式 我们要做的是计算在已知词向量$w=(w_1,w_2,...,w_n)$的条件下求包含该词向量邮件是否为垃圾邮件的概率,即求: $P(s|w),w=(w_1,w_2,...,w_n)$ 其中,$s$表示分类为垃圾邮件 根据贝叶斯公式和全概率公式, $P(s|w_1,w_2,...,w_n)$ $=\frac {P(s,w_1,w_2,...,w_n)}{P(w_1,w_2,...,w_n)}$ $=\frac {P(w_1,w_2,...,w_n|s)P(s)}{P(w_1,w_2,...,w_n)}$ $=\
2021-05-26 13:22:05 17.55MB 附件源码 文章源码
1
从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05 12KB 邮件分类 中文 语料 贝叶斯
1
该论文中详细介绍了基于朴素贝叶斯的垃圾邮件分类过程,以及五折交叉验证的评价指标,并包含完整的代码,python格式,是一个学习朴素贝叶斯方法不错的实例。
2021-05-15 21:32:40 325KB 朴素贝叶斯 交叉验证 垃圾邮件分类
1
使用朴素贝叶斯的垃圾邮件分类器 垃圾邮件检测是NLP的主要应用之一。 所有主要的电子邮件服务提供商都内置了垃圾邮件检测系统,并将这些邮件自动分类为“垃圾邮件”。 在这里,基于我们对模型的训练,朴素贝叶斯算法用于创建一个模型,该模型可以将数据集SMS消息分类为垃圾邮件或非垃圾邮件。 能够识别垃圾邮件是一个二进制分类问题,因为邮件被分类为“垃圾邮件”或“非垃圾邮件”,别无其他。 同样,这是一个有监督的学习问题,正如我们知道要预测的那样。 我们将标记的数据集输入模型中,以供将来进行预测,该模型可以从中学习。 使用最初编译并发布在UCI机器学习存储库中的数据集,该库具有用于实验研究目的的非常好的数据集。
2021-05-09 05:05:21 14KB JupyterNotebook
1
该数据集内容为垃圾邮件分类数据集,用于自然语言处理>02.朴素贝叶斯-垃圾邮件分类中的案例数据,该数据集仅供参考
2021-05-08 09:27:55 119KB 朴素贝叶斯算法
1
具有中文垃圾邮件,正常邮件,测试邮件等资料,可以用于朴素贝叶斯分类来检测垃圾邮件
2021-05-07 17:13:24 17.06MB 机器学习
1