上传者: 42164931
|
上传时间: 2022-03-07 13:49:18
|
文件大小: 5KB
|
文件类型: -
垃圾邮件过滤器
基于贝叶斯网络的垃圾邮件过滤器
为垃圾邮件检测实现朴素贝叶斯分类器 [60]
朴素贝叶斯是一种简单有效的机器学习方法,用于解决各种问题,包括垃圾邮件检测的应用。 您将实现一个朴素贝叶斯分类器,将电子邮件消息分类为垃圾邮件(即垃圾邮件)或火腿(即合法邮件)。 本次作业的训练和测试数据集可以在 HW5_code.zip 中找到。训练集由不同目录中的 800 条垃圾邮件和 800 条火腿消息组成,测试集包含 400 条垃圾邮件和 400 条火腿消息。 两组都具有完整的原始标题信息。 每封电子邮件都是一个单独的文本文件。 数据组织如下:
/train/ham/ /train/spam/ /test/ham/ /test/spam/
提供的代码读取训练集中的所有消息,提取每个单词,删除标点符号和数字,构建所有单词的字典,并存储单词计数和单词概率。 此代码在框架代码文件 NBSp