从零开始学人工智能(25)--Python · 朴素贝叶斯(四)· MergedNB

浏览: 1717

作者:射命丸咲    Python 与 机器学习 爱好者

知乎专栏:https://zhuanlan.zhihu.com/carefree0910-pyml 

个人网站:http://www.carefree0910.com 

往期阅读:

机器学习综述

从零开始学人工智能(21)--数学 · CNN · 从 NN 到 CNN 

从零开始学人工智能(22)--Python · 朴素贝叶斯(一)· 框架

从零开始学人工智能(23)--Python · 朴素贝叶斯(二)· MultinomialNB

从零开始学人工智能(24)--Python · 朴素贝叶斯(三)·  GaussianNB

GitHub 地址:

https://github.com/carefree0910/MachineLearning/blob/master/b_NaiveBayes/Vectorized/MergedNB.py

========================

本章主要介绍混合型朴素贝叶斯—— MergedNB 的实现。算法的叙述已经在这篇文章(https://zhuanlan.zhihu.com/p/25006836)中进行过说明,下面就直接看看如何进行实现。首先是初始化:

from b_NaiveBayes.Original.Basic import *

from b_NaiveBayes.Original.MultinomialNB import MultinomialNB

from b_NaiveBayes.Original.GaussianNB import GaussianNBclass MergedNB(NaiveBayes):

   """

        初始化结构

        self._whether_discrete:记录各个维度的变量是否是离散型变量

        self._whether_continuous:记录各个维度的变量是否是连续型变量

        self._multinomial、self._gaussian:离散型、连续型朴素贝叶斯模型

    """

    def __init__(self, whether_continuous):

        self._multinomial, self._gaussian = (

            MultinomialNB(), GaussianNB()

        if whether_continuous is None:

            self._whether_discrete = self._whether_continuous = None

        else:

            self._whether_continuous = np.array(whether_continuous)

            self._whether_discrete = ~self._whether_continuous

接下来放出和模型的训练相关的实现,这一块将会大量重用之前在 MultinomialNB 和 GaussianNB 里面写过的东西:

   def feed_data(self, x, y, sample_weight=None):

        if sample_weight is not None:

            sample_weight = np.array(sample_weight)

        x, y, wc, features, feat_dics, label_dic = DataUtil.quantize_data(

            x, y, wc=self._whether_continuous, separate=True)

        # 若没有指定哪些维度连续,则用 quantize_data 中朴素的方法判定哪些维度连续

        if self._whether_continuous is None:

            self._whether_continuous = wc

            # 通过Numpy中对逻辑非的支持进行快速运算

            self._whether_discrete = ~self._whether_continuous

        # 计算通用变量

        self.label_dic = label_dic

        discrete_x, continuous_x = x

        cat_counter = np.bincount(y)

        self._cat_counter = cat_counter

        labels = [y == value for value in range(len(cat_counter))]

        # 训练离散型朴素贝叶斯

        labelled_x = [discrete_x[ci].T for ci in labels]

        self._multinomial._x, self._multinomial._y = x, y

        self._multinomial._labelled_x, self._multinomial._label_zip = (

            labelled_x, list(zip(labels, labelled_x)))

        self._multinomial._cat_counter = cat_counter

        self._multinomial._feat_dics = [_dic

            for i, _dic in enumerate(feat_dics) if self._whether_discrete[i]]

        self._multinomial._n_possibilities = [len(feats)

            for i, feats in enumerate(features) if self._whether_discrete[i]]

        self._multinomial.label_dic = label_dic

        # 训练连续型朴素贝叶斯

        labelled_x = [continuous_x[label].T for label in labels]

        self._gaussian._x, self._gaussian._y = continuous_x.T, y

        self._gaussian._labelled_x, self._gaussian._label_zip = labelled_x, labels

        self._gaussian._cat_counter, self._gaussian.label_dic = cat_counter, label_dic

        # 处理样本权重

        self._feed_sample_weight(sample_weight)

    # 分别利用 MultinomialNB 和 GaussianNB 处理样本权重的方法来处理样本权重

    def feed_sample_weight(self, sample_weight=None):

        self._multinomial.feed_sample_weight(sample_weight)

        self._gaussian.feed_sample_weight(sample_weight)

    # 分别利用 MultinomialNB 和 GaussianNB 的训练函数来进行训练

    def _fit(self, lb):

        self._multinomial.fit()

        self._gaussian.fit()

        p_category = self._multinomial.get_prior_probability(lb)

        discrete_func, continuous_func = (

            self._multinomial["func"], self._gaussian["func"])

        # 将 MultinomialNB 和 GaussianNB 的决策函数直接合成最终决策函数

        # 由于这两个决策函数都乘了先验概率、我们需要除掉一个先验概率

        def func(input_x, tar_category):

            input_x = np.array(input_x)

            return discrete_func(

                input_x[self._whether_discrete].astype(

                    np.int), tar_category) * continuous_func(

                input_x[self._whether_continuous], tar_category) / p_category[tar_category]

        return func

(又臭又长啊喂……)

上述实现有一个显而易见的可以优化的地方:我们一共在代码中重复计算了三次先验概率、但其实只用计算一次就可以。考虑到这一点不是性能瓶颈,为了代码的连贯性和可读性、我们就没有进行这个优化(???)

数据转换函数则相对而言要复杂一点,因为我们需要跳过连续维度、将离散维度挑出来进行数值化:

   # 实现转换混合型数据的方法,要注意利用MultinomialNB的相应变量

    def _transfer_x(self, x):

        _feat_dics = self._multinomial["feat_dics"]

        idx = 0

        for d, discrete in enumerate(self._whether_discrete):

            # 如果是连续维度,直接调用float方法将其转为浮点数

            if not discrete:

                x[d] = float(x[d])

            # 如果是离散维度,利用转换字典进行数值化

            else:

                x[d] = _feat_dics[idx][x[d]]

            if discrete:

                idx += 1

        return x

至此,混合型朴素贝叶斯模型就搭建完毕了。为了比较合理地对它进行评估,我们不妨采用 UCI 上一个我认为有些病态的数据集进行测试。问题的描述大概可以概括如下:

“训练数据包含了某银行一项业务的目标客户的信息、电话销售记录以及后来他是否购买了这项业务的信息。我们希望做到:根据客户的基本信息和历史联系记录,预测他是否会购买这项业务”。UCI 上的原问题描述则如下图所示:

image.png

概括其主要内容、就是它是一个有 17 个属性的二类分类问题。之所以我认为它是病态的,是因为我发现即使是 17 个属性几乎完全一样的两个人,他们选择是否购买业务的结果也会截然相反。事实上从心理学的角度来说,想要很好地预测人的行为确实是一项非常困难的事情、尤其是当该行为直接牵扯到较大的利益时

完整的数据集可以参见这里(https://github.com/carefree0910/MachineLearning/blob/master/_Data/bank1.0.txt)(最后一列数据是类别)。按照数据的特性、我们可以通过和之前用来评估MultinomialNB的代码差不多的代码(注意额外定义一个记录离散型维度的数组即可)得出如下图所示的结果:

image.png

虽然准确率达到了 89%左右,但其实该问题不应该用准确率作为评判的标准。因为如果我们观察数据就会发现、数据存在着严重的非均衡现象。事实上,88%的客户最终都是没有购买这个业务的、但我们更关心的是那一小部分购买了业务的客户,这种情况我们通常会用 F1-score 来衡量模型的好坏。此外,该问题非常需要人为进行数据清洗、因为其原始数据非常杂乱。此外,我们可以对该问题中的各个离散维度进行可视化。该数据共 9 个离散维度,我们可以将它们合并在同一个图中以方便获得该数据离散部分的直观(如下图所示;由于各个特征的各个取值通常比较长(比如"manager"之类的),为整洁、我们直接将横坐标置为等差数列而没有进行转换):

image.png

其中天蓝色代表类别 yes、亦即购买了业务;橙色则代表 no、亦即没有购买业务。可以看到、所有离散维度的特征都是前面所说的“无足轻重”的特征

连续维度的可视化是几乎同理的,唯一的差别在于它不是柱状图而是正态分布密度函数的函数曲线。具体的代码实现从略、感兴趣的观众老爷们可以尝试动手实现一下,这里仅放出程序运行的结果。该数据共 7 个连续维度,我们同样把它们放在同一个图中:

image.png

其中,天蓝色曲线代表类别 yes、橙色曲线代表类别 no。可以看到,两种类别的数据在各个维度上的正态分布的均值、方差都几乎一致

从以上的分析已经可以比较直观地感受到、该问题确实相当病态。特别地,考虑到朴素贝叶斯的算法、不难想象此时的混合型朴素贝叶斯模型基本就只是根据各类别的先验概率来进行分类决策

至此,朴素贝叶斯算法的理论、实现就差不多都说了一遍,希望观众老爷们能够喜欢~


公众号后台回复关键词学习

回复 人工智能          揭开人工智能的神秘面纱

回复 贝叶斯算法      贝叶斯算法与新闻分类

回复 机器学习          R&Python机器学习

回复 阿里数据          阿里数据系列课程

回复 Python            Python机器学习案例实战

回复 Spark              征服Spark第一季

回复 kaggle             机器学习kaggle案例

回复 大数据             大数据系列视频

回复 数据分析         数据分析人员的转型

回复 数据挖掘         数据挖掘与人工智能

回复 机器学习         R&Python机器学习

回复 阿里数据         阿里数据系列课程

回复 R                     R&Python机器学习入门


推荐 0
本文由 人工智能爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册