如何解决分类应用时的样本分布不均衡的问题

发表: 2018-01-02 浏览: 3491

大数据数据化运营数据集成抽样集成方法

宋天龙（TonySong） Webtrekk中国区技术和咨询负责人（Webtrekk，德国最大的网站数据分析服务提供商），数据常青藤和数据研究与商业应用博主，资深数据分析领域专家。
著有《Python数据分析与数据化运营》、《网站数据挖掘与分析：系统方法与商业实践》、《企业大数据系统构建实战：技术、架构、实施与应用》
Python数据分析与数据化运营已经正式上线，点击阅读全文可以购买！

1. 什么是样本不均衡

所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。

q 大数据分布不均衡。这种情况下整体数据规模大，只是其中的少样本类的占比较少。但是从每个特征的分布来看，小样本也覆盖了大部分或全部的特征。例如拥有1000万条记录的数据集中，其中占比50万条的少数分类样本便于属于这种情况。

q 小数据分布不均衡。这种情况下整体数据规模小，并且占据少量样本比例的分类数量也少，这会导致特征分布的严重不平衡。例如拥有1000条数据样本的数据集中，其中占有10条样本的分类，其特征无论如何拟合也无法实现完整特征值的覆盖，此时属于严重的数据样本分布不均衡。

样本分布不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖于有限的数据样本而导致过拟合的问题，当模型应用到新的数据上时，模型的准确性和鲁棒性将很差。

样本分布不平衡主要在于不同类别间的样本比例差异，以笔者的工作经验看，如果不同分类间的样本量比例差异达到超过10倍就需要引起警觉并考虑处理该问题，超过20倍就要一定要解决该问题。

2. 哪些数据场景中容易出现样本不均衡

在数据化运营过程中，以下场景会经常产生样本分布不均衡的问题：

异常检测场景。大多数企业中的异常个案都是少量的，比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障等，这些数据样本所占的比例通常是整体样本中很少的一部分，以信用卡欺诈为例，刷实体信用卡的欺诈比例一般都在0.1%以内。

客户流失场景。大型企业的流失客户相对于整体客户通常是少量的，尤其对于具有垄断地位的行业巨擘，例如电信、石油、网络运营商等更是如此。

罕见事件的分析。罕见事件与异常检测类似，都属于发生个案较少；但不同点在于异常检测通常都有是预先定义好的规则和逻辑，并且大多数异常事件都对会企业运营造成负面影响，因此针对异常事件的检测和预防非常重要；但罕见事件则无法预判，并且也没有明显的积极和消极影响倾向。例如由于某网络大V无意中转发了企业的一条趣味广告导致用户流量明显提升便属于此类。

发生频率低的事件。这种事件是预期或计划性事件，但是发生频率非常低。例如每年1次的双11盛会一般都会产生较高的销售额，但放到全年来看这一天的销售额占比很可能只有1%不到，尤其对于很少参与活动的公司而言，这种情况更加明显。这种属于典型的低频事件。

3. 通过4种方法应对样本不均衡问题

3.1 通过过抽样和欠抽样解决样本不均衡

抽样是解决样本分布不均衡相对简单且常用的方法，包括过抽样和欠抽样两种。

过抽样

过抽样（也叫上采样、over-sampling）方法通过增加分类中少

数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法。

欠抽样

欠抽样（也叫下采样、under-sampling）方法通过减少分类中多数类样本的样本数量来实现样本均衡，最直接的方法是随机地去掉一些多数类样本来减小多数类的规模，缺点是会丢失多数类样本中的一些重要信息。

总体上，过抽样和欠抽样更适合大数据分布不均衡的情况，尤其是第一种（过抽样）方法应用更加广泛。

3.2 通过正负样本的惩罚权重解决样本不均衡

通过正负样本的惩罚权重解决样本不均衡的问题的思想是在算法实现过程中，对于分类中不同样本数量的类别分别赋予不同的权重（一般思路分类中的小样本量类别权重高，大样本量类别权重低），然后进行计算和建模。

使用这种方法时需要对样本本身做额外处理，只需在算法模型的参数中进行相应设置即可。很多模型和算法中都有基于类别参数的调整设置，以scikit-learn中的SVM为例，通过在class_weight : {dict, 'balanced'}中针对不同类别针对不同的权重，来手动指定不同类别的权重。如果使用其默认的方法balanced，那么SVM会将权重设置为与不同类别样本数量呈反比的权重来做自动均衡处理，计算公式为：

n_samples / (n_classes* np.bincount(y))。

如果算法本身支持，这种思路是更加简单且高效的方法。

3.3 通过组合/集成方法解决样本不均衡

组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集和训练模型。最后在应用时，使用组合方法（例如投票、加权投票等）产生分类预测结果。

例如，在数据集中的正、负例的样本分别为100和10000条，比例为1:100。此时可以将负例样本（类别中的大量样本集）随机分为100份（当然也可以分更多），每份100条数据；然后每次形成训练集时使用所有的正样本（100条）和随机抽取的负样本（100条）形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。

这种解决问题的思路类似于随机森林。在随机森林中，虽然每个小决策树的分类能力很弱，但是通过大量的“小树”组合形成的“森林”具有良好的模型预测能力。

如果计算资源充足，并且对于模型的时效性要求不高的话，这种方法比较合适。

3.4 通过特征选择解决样本不均衡

上述几种方法都是基于数据行的操作，通过多种途径来使得不同类别的样本数据行记录均衡。除此以外，还可以考虑使用或辅助于基于列的特征选择方法。

一般情况下，样本不均衡也会导致特征分布不均衡，但如果小类别样本量具有一定的规模，那么意味着其特征值的分布较为均匀，可通过选择具有显著型的特征配合参与解决样本不均衡问题也能在一定程度上提高模型效果。

4. 代码实操，真刀真枪的练练

在处理样本不均衡问题时，我们会使用一个专门用于不平衡数据处理的Python包imbalanced-learn，读者需要先在系统终端的命令行使用pip installimbalanced-learn进行安装，示例代码包版本为0.2.1。Python版本是64位的2.7.14。示例中的文件可在《Python数据分析与数据化运营》附件压缩包的“附件-chapter3”中找到，可从http://www.dataivy.cn/book/python_book.zip或https://pan.baidu.com/s/1kUUBWNX下载。

第一部分 导入用到的库

本示例中用到了第三方库imbalanced-learn实现主要的样本不均衡处理，而pandas的引入主要用于解释和说明不同处理方法得到的结果集样本的分布情况，sklearn.svm中的SVC主要用于说明SVM如何在算法中自动调整分类权重。

import pandas as pd # 读取和数据预处理

from imblearn.over_sampling import SMOTE  # 过抽样处理库SMOTE

from imblearn.under_sampling import RandomUnderSampler  # 欠抽样处理库RandomUnderSampler

from sklearn.svm import SVC  #SVM中的分类算法SVC

from imblearn.ensemble import EasyEnsemble  # 简单集成方法EasyEnsemble

第二部分 导入数据文件

该过程中使用pandas的read_table读取本地文件，为了更好的区别不同的列，通过names指定列名；对数据框做切片分割得到输入的x和目标变量y；通过pandas的groupby()方法按照label类做分类汇总，汇总方式是使用count()函数计数。

# 导入数据文件

df = pd.read_table('data2.txt', sep=' ', names=['col1', 'col2','col3', 'col4', 'col5', 'label'])  # 读取数据文件

x = df.iloc[:, :-1]  # 切片，得到输入x

y = df.iloc[:, -1]  # 切片，得到标签y

groupby_data_orgianl = df.groupby('label').count()  # 对label做分类汇总

print (groupby_data_orgianl) # 打印输出原始数据集样本分类分布

输入原始数据集样本分类分布如下：

输出结果显示了原始数据集中，正样本（label为1）的数量仅有58个，占总样本量的5.8%，属于严重不均衡分布。

第三部分 使用SMOTE方法进行过抽样处理

该过程中首先建立SMOTE模型对象，并直接应用fit_sample对数据进行过抽样处理，如果要获得有关smote的具体参数信息，可先使用fit(x,y)方法获得模型信息，并得到模型不同参数和属性；从fit_sample方法分别得到对x和y过抽样处理后的数据集，将两份数据集转换为数据框然后合并为一个整体数据框；最后通过pandas提供的groupby()方法按照label类做分类汇总，汇总方式是使用count()函数计数。

# 使用SMOTE方法进行过抽样处理

model_smote = SMOTE()  # 建立SMOTE模型对象

x_smote_resampled, y_smote_resampled = model_smote.fit_sample(x,y)  # 输入数据并作过抽样处理

x_smote_resampled = pd.DataFrame(x_smote_resampled, columns=['col1','col2', 'col3', 'col4', 'col5'])  # 将数据转换为数据框并命名列名

y_smote_resampled = pd.DataFrame(y_smote_resampled,columns=['label'])  # 将数据转换为数据框并命名列名

smote_resampled = pd.concat([x_smote_resampled, y_smote_resampled],axis=1)  # 按列合并数据框

groupby_data_smote = smote_resampled.groupby('label').count()  # 对label做分类汇总

print (groupby_data_smote)  # 打印输出经过SMOTE处理后的数据集样本分类分布

经过SMOTE处理后的数据集样本分类分布如下：

通过对比第二部分代码段的原始数据集返回结果发现，该结果中的正样本（label为1）的数量增加，并与负样本数量相同，均为942条，数据分类样本得到平衡。

第四部分 使用RandomUnderSampler方法进行欠抽样处理

该过程与第三部分步骤完全相同，在此略过各模块介绍，用途都已在代码备注中注明。

# 使用RandomUnderSampler方法进行欠抽样处理

model_RandomUnderSampler = RandomUnderSampler() # 建立RandomUnderSampler模型对象

x_RandomUnderSampler_resampled, y_RandomUnderSampler_resampled =model_RandomUnderSampler.fit_sample(x,y) # 输入数据并作欠抽样处理

x_RandomUnderSampler_resampled =pd.DataFrame(x_RandomUnderSampler_resampled,columns=['col1','col2','col3','col4','col5'])# 将数据转换为数据框并命名列名

y_RandomUnderSampler_resampled =pd.DataFrame(y_RandomUnderSampler_resampled,columns=['label']) # 将数据转换为数据框并命名列名

RandomUnderSampler_resampled =pd.concat([x_RandomUnderSampler_resampled, y_RandomUnderSampler_resampled],axis = 1) # 按列合并数据框

groupby_data_RandomUnderSampler =RandomUnderSampler_resampled.groupby('label').count() # 对label做分类汇总

print (groupby_data_RandomUnderSampler) # 打印输出经过RandomUnderSampler处理后的数据集样本分类分布

经过RandomUnderSampler处理后的数据集样本分类分布如下：

通过对比第二部分代码段的原始数据集返回的结果，该结果中的负样本（label为0）的数量减少，并跟正样本相同，均为58条，样本得到平衡。

第五部分 使用SVM的权重调节处理不均衡样本。

该过程主要通过配置SVC中的class_weight参数和值的设置来处理样本权重，该参数可设置为字典、None或字符串balanced三种模式：

字典：通过手动指定的不同类别的权重，例如{1:10,0:1}

None：代表类别的权重相同

balanced：代表算法将自动调整与输入数据中的类频率成反比的权重，具体公式为n_samples /（n_classes * np.bincount（y）），程序示例中使用了该方法

经过设置后，算法自动处理样本分类权重，无需用户做其他处理。要对新的数据集做预测，只需要调用model_svm模型对象的predict方法即可。

# 使用SVM的权重调节处理不均衡样本

model_svm = SVC(class_weight='balanced')  # 创建SVC模型对象并指定类别权重

model_svm.fit(x, y)  # 输入x和y并训练模型

print(model_svm.class_weight_) # # 输出模型对类别自动设置的权重值

打印输出结果如下：

通过输出结果可以看到，svc对两个类别的权重分别为0.53078556和8.6206896。

第六部分 使用集成方法EasyEnsemble处理不均衡样本

该方法的主要过程与其他imblearn方法过程类似，不同点在于集成方法返回的数据为三维数据，即将数据在原来的基础上新增了一个维度——“份数”，集成方法返回的数据x和y的形状为(10, 116, 5)和(10, 116)。

# 使用集成方法EasyEnsemble处理不均衡样本

model_EasyEnsemble = EasyEnsemble() # 建立EasyEnsemble模型对象

x_EasyEnsemble_resampled, y_EasyEnsemble_resampled =model_EasyEnsemble.fit_sample(x, y)  # 输入数据并应用集成方法处理

print (x_EasyEnsemble_resampled.shape)  # 打印输出集成方法处理后的x样本集概况

print (y_EasyEnsemble_resampled.shape)  # 打印输出集成方法处理后的y标签集概况

返回结果中包含了份数

为了更详细的查看其中每一份数据，抽取其中一份数据做审查。

# 抽取其中一份数据做审查

index_num = 1 # 设置抽样样本集索引

x_EasyEnsemble_resampled_t =pd.DataFrame(x_EasyEnsemble_resampled[index_num],columns=['col1','col2','col3','col4','col5'])# 将数据转换为数据框并命名列名

y_EasyEnsemble_resampled_t =pd.DataFrame(y_EasyEnsemble_resampled[index_num],columns=['label']) # 将数据转换为数据框并命名列名

EasyEnsemble_resampled = pd.concat([x_EasyEnsemble_resampled_t,y_EasyEnsemble_resampled_t], axis = 1) # 按列合并数据框

groupby_data_EasyEnsemble = EasyEnsemble_resampled.groupby('label').count()# 对label做分类汇总

print (groupby_data_EasyEnsemble) # 打印输出经过EasyEnsemble处理后的数据集样本分类分布

得到的每份数据返回结果如下：

通过对比第二部分代码段的原始数据集返回的结果，该结果中的负样本（label为0）的数量减少，并跟正样本相同，均为58条，样本集得到平衡。随后的应用中，可以通过循环读取每一份数据训练模型并得到结果，然后将10（x处理后返回的结果，通过形状名年龄返回的元组中的第一个数值，x_EasyEnsemble_resampled.shape[0]）份数据的结果通过一定方法做汇总。

有关数据预处理的内容以及分析与挖掘的话题，请查看《Python数据分析与数据化运营》。有关这本书的写作感受、详细内容介绍、附件（含数据和代码源文件-源代码可更改数据源直接使用）下载、关键知识和方法以及完整书稿目录，请访问《Python数据分析与数据化运营》新书上线，要购买此书请直接点击图片或扫描二维码去京东购买。

0 个评论

要回复文章请先登录或注册