天真贝叶斯垃圾邮件检测器
使用Scikit学习机器学习库将电子邮件分类为垃圾邮件或非垃圾邮件的Python程序。
先决条件
该程序是用Python 3编写的,并使用了Numpy,Pandas和Scikit-learn库。
数据集
该程序利用以csv格式存储的两个数据集。
主要数据集“垃圾邮件或非垃圾邮件”。 该集合是文件'20030228easyham.tar.bz2'和'20030228_spam.tar.bz2'的组合。 这组包含2500个火腿电子邮件示例和500个垃圾电子邮件示例。 该集合包含两列:电子邮件和标签。 电子邮件列中的元素是带有数字值和url的文本字符串,分别用单词“ NUMBER”和“ URL”替换。 标签列中的元素可以具有两个可能的值:如果电子邮件是非垃圾邮件,则为0;如果电子邮件是垃圾邮件,则为1。
辅助数据集包含伪造数据。 此集合遵循主要集合的样式; 两列用于
2023-01-02 22:17:54
1.15MB
1