朴素贝叶斯算法的领悟

浏览: 2804

、统计学基础知识(虽然枯燥,但是硬着头皮也要看)

                                             1.png2.png

、基于朴素贝叶斯定理的条件概率

                                         2.png

、朴素贝叶斯分类的工作流程

                                        3.png

、朴素贝叶斯分类中需要注意的问题

⑴假设条件:每一个属性值在给定类上面的影响是独立于其他属性的,也就是说属性与属性之间是相互独立的,称之为“类条件独立性”。

⑵如果属性是分类变量,那么“边际似然概率”是可以用计数的形式来加以计算。具体会在后面的小案例中呈现。

⑶如果属性是连续变量,那么则假设其实服从于均值为μ,方差为σ的高斯分布:

                                                                             4.png

则具体的“边际似然概率”可以通过上面的概率密度公式求得。具体会在后面的小案例中呈现

拉普拉斯估计:考虑到某一属性的某一特征的样本量为0,这样会给分类带来很大的误差,可以在每个特征的数量加1,这样有效的避免概率值为0的情况。

、朴素贝叶斯分类适用解决的问题

        在考虑一个结果的概率时候,要考虑众多的属性,贝叶斯算法利用所有可能的数据来进行修正预测,如果大量的特征产生的影响较小,放在一起,组合的影响较大,适合于朴素贝叶斯分类。

、朴素贝叶斯分类的两个小案例

⑴通过对词语“伟哥”,“金钱”,“杂货”的监测来对垃圾邮件进行过滤,这三个词汇(记为A1,A2,A3)的似然表来训练朴素贝叶斯算法,对100封电子邮件分析后的似然表如下:

                          5.png

 ①下面我5.png们利用贝叶斯定理,定义这样一个问题的概率—一封电子邮件中含有“伟哥”,不含“金钱”和“杂货”,那么这封邮件是垃圾邮件的概率:

                                  6.png

②现在考虑这么一个问题:一封电子邮件中含有“伟哥”和“杂货”,不含“金钱”,那么这封邮件是垃圾邮件的概率:

 这时我们发现在20封垃圾邮件中出现“杂货”的次数为0,这就影响了对概率的计算,现在要利用拉普拉斯估计:对每个似然函数,分子加1,分母加上分子中1的总个数

⑵以作者本人班级上学期三门专业课成绩为例,进行属性是连续变量的朴素贝叶斯分类。然后用作者本人的成绩来进行预测:

                                                                 7.png8.png

       由此计算作者本人三门课程的成绩(A1:course1=86, A2: course2=75,A3:course3=61),来查看对他的分类

       假设这三门成绩都服从正态分布,通过样本计算均值和方差,得到正态分布的密度函数,从而可以计算出某一点的密度函数值。

                                      9.png

         由于以上三式的分母值一样,为此,我们只是来比较分子的值,R代码如下:

       10.png

         因此本人有55.25%的可能性拿一等奖学金,36.16%的可能性拿二等奖学金,8.59%可能性拿三等奖学金。

         谢谢大家!


 

推荐 6
本文由 张小胖 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

以后多来写写
收藏了

要回复文章请先登录注册