本项目基于朴素贝叶斯和SVM 分类模型,通过对垃圾邮件和正常邮件的数据训练,进行相关词汇词频的统计分析,实现垃圾邮件的识别功能。本项目包括3个模块:数据模块、模型构建、附加功能。需要Python 3.6 及以上配置,在Windows 环境下载Anaconda 完成Python 所需的配置,也可以下载虚拟机在Linux 环境下运行代码。从github 网站下载与python PIL 库配搭使用的文字引擎pytesseract,将PIL 文件夹里的.py 文件,改为相应pytesseract.exe 路径。注册百度云账号,分别建立图像文字识别和图像识别的小程序。
1
软件: anaconda jupyter notebook 运行代码文件:naive bayes.ipynb python环境
2023-11-12 20:53:50 55.11MB 机器学习 python 数据集 朴素贝叶斯算法
1
朴素贝叶斯算法实战 email邮件数据集,SogouC新闻数据集 Email_NB.py垃圾邮件过滤实现(Python3实现) Naive_Bay.py 朴素贝叶斯算法实现(Python3实现) 样本比较小,成功率大概为90% import numpy as np from functools import reduce """ 函数说明:创建实验样本 Parameters: 无 Returns: postingList - 实验样本切分的词条 classVec - 类别标签向量 """ def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], #切分的词条 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so',
2023-04-06 12:03:35 196KB 贝叶斯
1
采用朴素贝叶斯算法对雷达点云数据进行分类,先构建kd树对点云领域进行搜寻,后提取点云的法向量、残差、主成分及高程差作为朴素贝叶斯算法的参数,运行程序可得到分类结果图。 (1)主程序为Classify.m (2)../data里为txt格式的训练样本与测试样本点云数据。
2023-03-13 23:54:12 3.61MB LiDAR点云 Matlab
1
本代码实现了朴素贝叶斯分类器(假设了条件独立的版本),常用于垃圾邮件分类,进行了拉普拉斯平滑。 关于朴素贝叶斯算法原理可以参考博客中原理部分的博文。 #!/usr/bin/python # -*- coding: utf-8 -*- from math import log from numpy import* import operator import matplotlib import matplotlib.pyplot as plt from os import listdir def loadDataSet(): postingList=[['my', 'dog', 'has'
2022-11-20 10:39:10 45KB python python算法 朴素贝叶斯
1
练习使用 Python 语言,请对“西瓜数据集2.0"中的数据进行分析,使用朴素贝叶斯方法学习西瓜数据后验条件概率分布,并对如下瓜的类型做出判断(乌黑,蜷缩,浊响,稍糊,平坦,硬滑)将 Python 运行结论截图上传到本题
1
使用Python实现朴素贝叶斯算法实现垃圾邮件分类 一、实验任务内容 1、分解各类先验样本数据中的特征 2、计算各类数据中,各特征的条件概率 3、分解待分类数据中的特征 4、计算各特征的各条件概率的乘积 5、结果中的最大值就是该样本所属的类别 二、实验步骤及结果 1、得到数据集和标签集,返回列表参数,返回单词转换为向量之后的列表。 2、通过训练得到贝叶斯分类模型 3、用朴素贝叶斯文本分类器对两个测试样本进行分类,利用正则函数进行解析 4、导入垃圾邮件和非垃圾邮件各25个并解析;构建训练集和测试集,利用贝叶斯分类模型来预测测试集,输出贝叶斯预测的准确率 5、输出测试10次的平均值 6、输出去重的单词列表和贝叶斯分类模型测试的准确率,测试10次的准确率的平均值。 三、实验心得 朴素贝叶斯确实是很好的预测分类的算法,但是这个算法还是有点过分的依赖训练集了,一些基本的概率计算还是根据训练集的结果得来的(比如40个训练集,10个测试集,它输出的准确率是0.5),预测的结果很大程度上取决于训练集的好坏,一旦训练集数据趋势有误会对结果造成严重的影响。
1
朴素贝叶斯(naive Bayes)是基于贝叶斯定理和条件独立假设的分类方法。该方法是生成方法,即通过数据学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入x,求出后验概率最大的输出y。 1.模型 联合概率分布:P(X,Y) 先验概率(边缘概率)分布: 条件概率分布: 三者关系:条件概率分布=联合概率分布/先验概率。 条件概率分布有指数级数量参数,通过条件独立假设(用于分类的特征在类确定的条件下都是条件独立的),将朴素贝叶斯法变得简单,但会牺牲一定的分类准确率。 条件独立性假设得到: 2.策略 贝叶斯公式: 朴素贝叶斯法分类时,对给定的输入x,通过学习计算后验概率分布,将后验
2022-11-09 07:52:37 221KB 学习 朴素贝叶斯 朴素贝叶斯算法
1
#清磁盘啦~,CSDN“网盘”真好用,感谢CSDN~ 机器学习,基于朴素贝叶斯机器学习算法实现对情感文本分析与分类(含数据集),sgns.weibo.bigram-char,使用gensim加载预训练中文分词
2022-10-06 18:06:21 173.42MB 机器学习 machine learning 朴素贝叶斯算法
1
朴素贝叶斯算法matlab代码用于机器学习的MATLAB 这是的代码存储库,由发行。 它包含从头到尾完成本书所必需的所有支持项目文件。 关于这本书 对于许多机器学习的研究人员和数学专家来说,MATLAB是首选的语言。 本书将帮助您为初学者使用MATLAB建立机器学习基础。 您将首先使用MATLAB环境进行机器学习来为系统做好准备,然后您将了解如何轻松地与Matlab工作区进行交互。 然后,我们将继续进行数据清洗,挖掘和分析机器学习中的各种数据类型,您将看到如何在绘图上显示数据值。 接下来,您将了解不同类型的回归技术,以及如何使用MATLAB函数将其应用于数据。 您还将探索分类技术,例如K最近邻分析和朴素贝叶斯算法,并了解决策树和规则学习者。 之后,您将深入研究无监督学习,并使用聚类方法(例如k均值方法和树状图)查找数据组。 您将了解神经网络的基本概念,并执行数据拟合,模式识别和聚类分析。 最后,您将探索特征选择和提取技术,以减少维度以提高性能。 在本书的最后,您将学习将它们放到实际案例中,涵盖主要的机器学习算法,并熟练使用MATLAB进行机器学习。 ##说明和导航所有代码都组织在文件夹
2022-09-12 20:46:39 693KB 系统开源
1