第六章 朴素贝叶斯分类
6.1 朴素贝叶斯分类数学基础
1.贝叶斯定理
假设对于某个数据集,随机变量 C 表示样本为 C 类的概率,F1 表示测试样本某特征出现的概率,套
用基本贝叶斯公式,则如下所示:
上式表示对于某个样本,特征 F1 出现时,该样本被分为 C 类的条件概率。
对于该公式,需要熟知的概念:
先验概率(Prior):P(C)是 C 的先验概率,可以从已有的训练集中计算分为 C 类的样本占所有样本的
比重得出。
证据(Evidence):即上式 P(F1),表示对于某测试样本,特征 F1 出现的概率。同样可以从训练集中
F1 特征对应样本所占总样本的比例得出。
似然(likelihood):即上式 P(F1|C),表示如果知道一个样本分为 C 类,那么他的特征为 F1 的概率是
多少
对于多特征而言:
贝叶斯定理是基于假设的先验概率给定假设下观察到不同数据的概率,提供了一种计算后验概率的方
法
6.2 朴素贝叶斯分类
1.思想基础
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项
属于哪个类别。
2.假设条件
1)特征之间相互独立
2)每个特征同等重要
3.朴素的概念