SPSS分析技术：决策树分析；银行如何判断申请贷款者的还款能力？

发表: 2017-12-13 浏览: 4517

SPSS 决策树

基础准备

上一篇文章介绍了决策树分析的基本理论，以及它与聚类分析、判别分析、逻辑回归分析等分类和判别方法的区别与联系，大家可以点击下方文章链接回顾：

数据分析技术：决策树分析；机器学习入门模型

决策树模型

通过上篇文章可以知道，决策树分析通过对历史数据的归类分析，找出能够使目标变量各个水平具有最大差异的分配路径，这些路径连接在一起就成为树状图，也称为决策树模型。如下图所示：

节点0表示原始数据按照目标分类变量分类的比例情况。根据自变量与目标变量的相关性（卡方检验结果），安排自变量进入模型，将原始数据按照自变量水平进行分支，如上图所示，分成1,2,3这三个节点，由于节点1数据在目标变量水平上已经达到显著，停止生长。节点2和3可以继续生长，直到有显著性差异为止。

通过以上过程，决策树就生长好了（决策树模型建立）。然后重新将数据代入到这个决策树模型中进行判别归类，检验该模型的判别效果如何，也就是判别准确率有多高。如果效果不错，那就可以用来对今后的数据进行判断，如果效果不好，那么可以考虑增添新的自变量，或使用其它的决策树生长方法（CHAID/E-CHAID/CART/QUEST），期望能够获得效果不错的决策树模型。以上就是决策树模型的建立逻辑。

范例分析

现在有一份银行记录客户贷款交易信息的数据文件，总共包含了2464名客户的信息。这份文件里记录了客户的信用记录、年龄、收入水平、信用卡数量、教育水平和贷款次数等信息。银行希望能够通过这些历史数据，分析能够及时还贷和拖欠贷款的客户特征，然后建立预测模型用于预测后续贷款申请者拖欠贷款的可能性，从而决定是否给其贷款。

分析思路

首先观察数据，发现数据有目标分类变量，也就是信用记录变量，该变量记录了客户之前在银行的信用好坏情况。其次，用于描述用户特征的变量收入水平、信用卡数量、教育水平、贷款次数为分类型变量，只有年龄是连续型变量，因此可以考虑使用决策树分析建立预测模型。最后，关于决策树四种算法CHAID/E-CHAID/CART/QUEST的选择问题，大家可以将通过测试，选择预测结果最好的算法即可。

分析步骤

1、选择菜单【分析】-【分类】-【决策树】。在跳出的对话框中，将目标变量，也就是需要预测的变量信用记录选为因变量；将用于预测的变量年龄、收入水平、信用卡数量、教育水平和贷款次数选为自变量。我们首先使用决策树的CHAID算法建立决策树模型。

2、点击因变量下方的【类别】按钮。在信用记录变量中，有两个水平：信用记录好与坏，银行更关心，希望能预测出来的应该是信用记录差的人，因此将差这个水平选为分析中使用的类别。同时有一部分客户的信息中没有信用记录信息，这部分客户数据被排除。

3、点击右上角的【输出】按钮。在对话框中，可以选择决策树的生长方向和结点内容。

4、点击右上角的【验证】按钮，这里可以设置训练集和验证集。草堂君在这里将75%的数据用作模型训练，25%的数据用来检验模型效果。这个比例可以自由调整。

5、点击【条件】按钮。为了避免结点个案数少导致结果不准确，可以在这里对结点的个案数进行规定，父节点个案数不能少于400，子节点个案数不能少于200。

6、点击【保存】按钮，可以将终端节点数，预测值，预测概率和样本分配情况保存为新的变量，显示在数据视图中。

7、点击【确定】，输出结果。

结果解释

1、模型摘要表格。从结果可知，最终的模型只纳入收入水平、信用卡数量和年龄三个自变量，而贷款次数和教育水平由于与因变量信用记录相关性低，被排除出模型。

2、决策树。结果输出两个决策树，分别是训练集决策树和检验集决策树。由于决策树所占空间比较大，这里只展现缩略图，具体图形，大家可以从qq群中下载数据自己制作。最终的端点包括节点1、8、9、6、5、7。

3、节点增益表。以训练集的节点1为例说明；节点1中，总个案数为417人，占它上一级，也就是父节点个案数1830的22.8%（417/1830）；节点增益中的343表示，417人中有343人的信用记录为坏，占它上一级，父节点信用记录坏的人数778的44.1%（343/778）。对比这两个比例可以发现，经过收入水平这个自变量的分类后，在节点1处，信用记录坏的人群比例由22.8%增长到44.1%，比例有显著性提高。响应的82.3%表示在节点1处，信用记录坏的人群比例为82.3%（343/417）。指数代表节点1出的信用记录坏的人数比例82.3%除以它的上一节父节点的信用记录坏的人数比例42.5%，82.3%/42.5%=1.935。

4、模型效果输出两个表格。风险表格显示训练集的风险估算值为0.195，表示有19.5%的个案会被错误归类；而检验集中有20.8%的个案被错误分类。下方的分类表格输出具体的模型分类结果，例如，在训练集中，763个信用记录差的人中，有534个被真确判断为查，有229个被错误判断为好，正确率为70%。可见这个决策树模型的效果有待改进。

0 个评论

要回复文章请先登录或注册