朴素贝叶斯算法的领悟

发表: 2017-02-16 浏览: 2804

数据挖掘

⑴假设条件：每一个属性值在给定类上面的影响是独立于其他属性的，也就是说属性与属性之间是相互独立的，称之为“类条件独立性”。

⑵如果属性是分类变量，那么“边际似然概率”是可以用计数的形式来加以计算。具体会在后面的小案例中呈现。

⑶如果属性是连续变量，那么则假设其实服从于均值为μ，方差为σ的高斯分布：

则具体的“边际似然概率”可以通过上面的概率密度公式求得。具体会在后面的小案例中呈现。

⑷拉普拉斯估计：考虑到某一属性的某一特征的样本量为0，这样会给分类带来很大的误差，可以在每个特征的数量加1，这样有效的避免概率值为0的情况。

五、朴素贝叶斯分类适用解决的问题

在考虑一个结果的概率时候，要考虑众多的属性，贝叶斯算法利用所有可能的数据来进行修正预测，如果大量的特征产生的影响较小，放在一起，组合的影响较大，适合于朴素贝叶斯分类。

六、朴素贝叶斯分类的两个小案例

⑴通过对词语“伟哥”，“金钱”，“杂货”的监测来对垃圾邮件进行过滤，这三个词汇(记为A1,A2,A3)的似然表来训练朴素贝叶斯算法，对100封电子邮件分析后的似然表如下：

①下面我们利用贝叶斯定理，定义这样一个问题的概率—一封电子邮件中含有“伟哥”，不含“金钱”和“杂货”，那么这封邮件是垃圾邮件的概率：

②现在考虑这么一个问题：一封电子邮件中含有“伟哥”和“杂货”，不含“金钱”，那么这封邮件是垃圾邮件的概率：

这时我们发现在20封垃圾邮件中出现“杂货”的次数为0，这就影响了对概率的计算，现在要利用拉普拉斯估计：对每个似然函数，分子加1，分母加上分子中1的总个数

⑵以作者本人班级上学期三门专业课成绩为例，进行属性是连续变量的朴素贝叶斯分类。然后用作者本人的成绩来进行预测：

由此计算作者本人三门课程的成绩(A1:course1=86, A2: course2=75,A3:course3=61)，来查看对他的分类

假设这三门成绩都服从正态分布，通过样本计算均值和方差，得到正态分布的密度函数，从而可以计算出某一点的密度函数值。

由于以上三式的分母值一样，为此，我们只是来比较分子的值，R代码如下：

因此本人有55.25%的可能性拿一等奖学金，36.16%的可能性拿二等奖学金，8.59%可能性拿三等奖学金。

谢谢大家！

2 个评论

以后多来写写

收藏了

要回复文章请先登录或注册