本项目基于朴素贝叶斯和SVM 分类模型,通过对垃圾邮件和正常邮件的数据训练,进行相关词汇词频的统计分析,实现垃圾邮件的识别功能。本项目包括3个模块:数据模块、模型构建、附加功能。需要Python 3.6 及以上配置,在Windows 环境下载Anaconda 完成Python 所需的配置,也可以下载虚拟机在Linux 环境下运行代码。从github 网站下载与python PIL 库配搭使用的文字引擎pytesseract,将PIL 文件夹里的.py 文件,改为相应pytesseract.exe 路径。注册百度云账号,分别建立图像文字识别和图像识别的小程序。
1