朴素贝叶斯分类及朴素贝叶斯法的参数估计

发表: 2017-05-12 浏览: 3571

贝叶斯思维

大家可以参考这篇博客对朴素贝叶斯的介绍，在这里主要将朴素贝叶斯分类和朴素贝叶斯的参数估计进行介绍，大家注意，朴素贝叶斯不等同于贝叶斯估计；

一开始我们不知道某一目标事件发生的真实状态，我们只能够估计出某一事件发生的先验概率，随着得到的信息特征或证据越来越多，我们可以通过给定的信息来判断某一事件发生的后验概率；朴素贝叶斯算法有以下几点优缺点：

1、优点：简单、快速、有效

能处理好噪声数据和缺失的数据

需要用来训练的例子相对较少，但同样能处理好大量的例子

很容易获得一个预测的估计概率值

2、缺点：

依赖于常用的错误假设，即所有的特征属性拥有一样的重要性和独立性

应用在含有大量数值特征的数据集时并不理想

概率的估计值相对于预测的类而言更加不靠谱

下面说一说连续变量的处理，针对连续变量我这里接触到两种处理方法

a) 假设某一特征属性服从正态分布，计算出均值和方差，即可得到正态分布的密度函数，算出某一点的密度函数的值

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。

a) 将连续变量离散化，计算不同区间的概率值代替改点的概率值

下面讲一个对连续变量进行朴素贝叶斯分类的例子

本例摘自维基百科，关于处理连续变量的另一种方法。

下面是一组人类身体特征的统计资料。

性别身高（英尺）体重（磅）脚掌（英寸）
男 6 180 12
男 5.92 190 11
男 5.58 170 12
男 5.92 165 10
女 5 100 6
女 5.5 150 8
女 5.42 130 7
女 5.75 150 9

已知某人身高6英尺、体重130磅，脚掌8英寸，请问该人是男是女？

根据朴素贝叶斯分类器，计算下面这个式子的值。

P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别)

由于身高、体重、脚掌都是连续变量，不能采用离散变量的方法计算概率。而且由于样本太少，所以也无法分成区间计算。怎么办？

这时，可以假设男性和女性的身高、体重、脚掌都是正态分布，通过样本计算出均值和方差，也就是得到正态分布的密度函数。有了密度函数，就可以把值代入，算出某一点的密度函数的值。

比如，男性的身高是均值5.855、标准差0.187的正态分布。所以，男性的身高为6英尺的概率的相对值等于1.5789。

#朴素贝叶斯算法

#导入数据，读取复制后剪切板的数据

> w<-read.table("clipboard",T)

#计算身高分别为男性、女性的均值、标准差

> u

     [,1]      [,2]

男 5.8550 0.1871719

女 5.4175 0.3118092

#计算身高6英尺的概率密度函数

> (P_height<- dnorm(6,mean(w[w$性别=="男",2]),sd(w[w$性别=="男",2])))

[1] 1.578883

#计算身高6英尺、体重130磅，脚掌8英寸为男性的概率

> p<-dnorm(6,mean(w[w$性别=="男",2]),sd(w[w$性别=="男",2]))*

+   dnorm(130,mean(w[w$性别=="男",3]),sd(w[w$性别=="男",3]))*

+   dnorm(8,mean(w[w$性别=="男",4]),sd(w[w$性别=="男",4]))

> p

[1] 1.239414e-08

#计算身高6英尺、体重130磅，脚掌8英寸为女性的概率

> q<-dnorm(6,mean(w[w$性别=="女",2]),sd(w[w$性别=="女",2]))*

+   dnorm(130,mean(w[w$性别=="女",3]),sd(w[w$性别=="女",3]))*

+   dnorm(8,mean(w[w$性别=="女",4]),sd(w[w$性别=="女",4]))

> q

[1] 0.001075582

> q/p

[1] 86781.46

因此可以判断为女性。

接下来说一说当怎么办？

当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述条件概率为0的尴尬局面。在后面我会继续讲，这就是朴素贝叶斯参数估计的贝叶斯估计。