一、模型方法        本工程采用的模型方法为朴素贝叶斯分类算法,它的核心算法思想基于概率论。我们称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。假设现在我们有一个数据集,它由两类数据组成,数据分布如下图所示。         我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中用三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别: 如果 p1(x,y) > p
2021-04-29 09:27:14 229KB ci log python
1
基于Eclipse并使用Maven创建Hadoop工程。 1)训练集training.txt文件 该文件是一个大小为75.8MB的文本数据集,并包含了20,000,000条数据记录,每行数据中包含的信息为“评价结论\t 评价内容”。其中,“评价内容”是若干词语组合而成,词语之间是空格隔开,词语包括中文、英文以及其他特殊符号,即其内容为“word1 word2 word3 word4 …… wordn”,其中wordi表示当前文本描述中的第i个词,n为当前文本描述中包含的总词数。 2)测试集test.txt文件 给定“test.data”数据集,该数据集包含了2000条记录,每行记录中包含的信息为“评价内容”,该“评价内容”的具体表现形式与前文描述的“training.txt”数据集相同。
2021-04-28 23:03:21 3.65MB hadoop 朴素贝叶斯 java
1
Hadoop mapreduce 实现NaiveBayes朴素贝叶斯
2021-04-28 15:51:31 57KB Hadoop mapreduce 朴素贝叶斯
1
这是我用python写的朴素贝页斯分类器(Naive Bayes classifier)
2021-04-25 08:53:47 20KB python 朴素贝页斯
1
监督分类_DT_GaussianNB 使用决策树和高斯朴素贝叶斯对葡萄酒数据集进行分类
2021-04-22 19:02:11 150KB JupyterNotebook
1
朴素贝叶斯算法的代码,将已有的数据进行分类,数据形式:第一列为类别,第二列到最后一列为特征属性,代码的运行结果可以给出准确率和分类结果,个人原创,可供学习也可以直接使用进行分类!
2021-04-21 12:05:52 2KB 朴素贝叶斯 基本模型
1
机器学习(8)-朴素贝叶斯:数据集与源码下载包含了数据集,预测集,预测结果,,源码
2021-04-21 11:14:18 962KB 机器学习 python 数据分析
1
一个实现朴素贝叶斯分类器简单的Python 库
2021-04-20 18:58:07 9KB Python开发-机器学习
1
贝叶斯新闻分类实战项目
2021-04-19 18:01:47 39.16MB 朴素贝叶斯
1
基于朴素贝叶斯的文本分类,结合了TF-IDF算法和textrank算法
2021-04-18 20:11:01 934KB 文本分类
1