SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?

浏览: 4517

基础准备

上一篇文章介绍了决策树分析的基本理论,以及它与聚类分析、判别分析、逻辑回归分析等分类和判别方法的区别与联系,大家可以点击下方文章链接回顾:

决策树模型

通过上篇文章可以知道,决策树分析通过对历史数据的归类分析,找出能够使目标变量各个水平具有最大差异的分配路径,这些路径连接在一起就成为树状图,也称为决策树模型。如下图所示:

image.png

节点0表示原始数据按照目标分类变量分类的比例情况。根据自变量与目标变量的相关性(卡方检验结果),安排自变量进入模型,将原始数据按照自变量水平进行分支,如上图所示,分成1,2,3这三个节点,由于节点1数据在目标变量水平上已经达到显著,停止生长。节点2和3可以继续生长,直到有显著性差异为止。

 

通过以上过程,决策树就生长好了(决策树模型建立)。然后重新将数据代入到这个决策树模型中进行判别归类,检验该模型的判别效果如何,也就是判别准确率有多高。如果效果不错,那就可以用来对今后的数据进行判断,如果效果不好,那么可以考虑增添新的自变量,或使用其它的决策树生长方法(CHAID/E-CHAID/CART/QUEST),期望能够获得效果不错的决策树模型。以上就是决策树模型的建立逻辑。

范例分析

现在有一份银行记录客户贷款交易信息的数据文件,总共包含了2464名客户的信息。这份文件里记录了客户的信用记录、年龄、收入水平、信用卡数量、教育水平和贷款次数等信息。银行希望能够通过这些历史数据,分析能够及时还贷和拖欠贷款的客户特征,然后建立预测模型用于预测后续贷款申请者拖欠贷款的可能性,从而决定是否给其贷款。

image.png

分析思路

首先观察数据,发现数据有目标分类变量,也就是信用记录变量,该变量记录了客户之前在银行的信用好坏情况。其次,用于描述用户特征的变量收入水平、信用卡数量、教育水平、贷款次数为分类型变量,只有年龄是连续型变量,因此可以考虑使用决策树分析建立预测模型。最后,关于决策树四种算法CHAID/E-CHAID/CART/QUEST的选择问题,大家可以将通过测试,选择预测结果最好的算法即可。

分析步骤

1、选择菜单【分析】-【分类】-【决策树】。在跳出的对话框中,将目标变量,也就是需要预测的变量信用记录选为因变量;将用于预测的变量年龄、收入水平、信用卡数量、教育水平和贷款次数选为自变量。我们首先使用决策树的CHAID算法建立决策树模型。

image.png

2、点击因变量下方的【类别】按钮。在信用记录变量中,有两个水平:信用记录好与坏,银行更关心,希望能预测出来的应该是信用记录差的人,因此将差这个水平选为分析中使用的类别。同时有一部分客户的信息中没有信用记录信息,这部分客户数据被排除。

image.png

3、点击右上角的【输出】按钮。在对话框中,可以选择决策树的生长方向和结点内容。

image.png

4、点击右上角的【验证】按钮,这里可以设置训练集和验证集。草堂君在这里将75%的数据用作模型训练,25%的数据用来检验模型效果。这个比例可以自由调整。

image.png

5、点击【条件】按钮。为了避免结点个案数少导致结果不准确,可以在这里对结点的个案数进行规定,父节点个案数不能少于400,子节点个案数不能少于200。

image.png

6、点击【保存】按钮,可以将终端节点数,预测值,预测概率和样本分配情况保存为新的变量,显示在数据视图中。

image.png

7、点击【确定】,输出结果。

结果解释

1、模型摘要表格。从结果可知,最终的模型只纳入收入水平、信用卡数量和年龄三个自变量,而贷款次数和教育水平由于与因变量信用记录相关性低,被排除出模型。

image.png

2、决策树。结果输出两个决策树,分别是训练集决策树和检验集决策树。由于决策树所占空间比较大,这里只展现缩略图,具体图形,大家可以从qq群中下载数据自己制作。最终的端点包括节点1、8、9、6、5、7。

image.png

image.png

3、节点增益表。以训练集的节点1为例说明;节点1中,总个案数为417人,占它上一级,也就是父节点个案数1830的22.8%(417/1830);节点增益中的343表示,417人中有343人的信用记录为坏,占它上一级,父节点信用记录坏的人数778的44.1%(343/778)。对比这两个比例可以发现,经过收入水平这个自变量的分类后,在节点1处,信用记录坏的人群比例由22.8%增长到44.1%,比例有显著性提高。响应的82.3%表示在节点1处,信用记录坏的人群比例为82.3%(343/417)。指数代表节点1出的信用记录坏的人数比例82.3%除以它的上一节父节点的信用记录坏的人数比例42.5%,82.3%/42.5%=1.935。

image.png

4、模型效果输出两个表格。风险表格显示训练集的风险估算值为0.195,表示有19.5%的个案会被错误归类;而检验集中有20.8%的个案被错误分类。下方的分类表格输出具体的模型分类结果,例如,在训练集中,763个信用记录差的人中,有534个被真确判断为查,有229个被错误判断为好,正确率为70%。可见这个决策树模型的效果有待改进。

image.png

image.png

推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册