面试5轮,最后拿到offer

浏览: 1319

通过具体的项目案例,学习面对数据,如何去分析的思路。

下面内容来自社群会员的项目作业。带着下面问题去学习这个案例:


1)是如何展开分析思路的?

2)分析维度有哪些?

3)如何用数据验证提出问题的?

4)分析得出哪些结论?

5)提出了哪些有效的建议?



一、背景描述

目前本人在某消费金融任职,虽然公司在信贷评估业务上有基于其他金融机构的大数据风控,如信用卡申请次数、网贷逾期记录等,但是业务量小,还未对公司客户群体进行逾期分析。

因此想借助互联网,接触庞大的用户群,通过案例来锻炼分析能力。对逾期用户的行为特征进行分析,给出逾期用户的行为特征画像,为降低逾期,风险前置提出有建设性的意见。

二、案例数据

本数据是某平台2016年的贷款数据,来自kaggle平台

(https://www.kaggle.com/skihikingkevin/online-p2p-lending)

数据集具体字段如下:


三、提出问题

用户画像的核心工作是给用户贴“标签”,而“标签”是能表示用户某一维度特征的标识,主要用于业务的运营和数据分析。

如何构建逾期用户画像呢?

自然是结合公司业务,根据人口统计、社会属性、用户消费画像、用户行为画像,用户兴趣画像等特征来构建。

如下图,这些是各行业通用的特征。但用户画像包含的内容并不完全固定,像金融领域,还会有风险画像,包括征信、违约、洗钱、还款能力、保险黑名单等。

根据用户画像的基本含义和数据集内各字段维度,我们对构建逾期用户画像的相关问题和数据维度进行确定。

隐藏,提出以下问题:

  • 整体贷款逾期情况是怎样的?

  • 金额类型、借款期限、贷款利率、评级、借款用途五个维度的逾期情况

  • 逾期率高的用户画像是怎样的?

根据用户画像并结合数据集字段,画出下面的用户特征的思维导图

图片中标为红色的就是本次用来分析的用户信息。通过分析各行为特征维度中的逾期占比,进而得出逾期客户的整体特征,来帮助企业及时调整,改善经营。

四、根据分析目标清洗数据

1.选择子集

选择对数据分析有意义的字段,隐藏无意义字段,因此隐藏贷款日期、债务出售收入、最近一次还款日、下次还款日等多个字段。

2.列名重命名

将列名更改为更容易理解的中文形式。

3.删除重复值

该数据集中,编号是唯一标识,因此检查编号是否有重复值。操作步骤:

单击任一有数据的单元格,数据 - 删除重复值 - 取消全选 - 选择编号一列 ,点击确定,结果并未发现有重复值。

4.缺失值处理

首先,我先选择编号整列,看右下角的数字统计,共1048576行。然后,选择与分析相关的字段列,依次点击序号查看行数,结果不存在空缺值。整体来看,该数据集很完整,可能是经过清洗后才上传的。

5.一致化处理

1)为了方便分析逾期情况,我按逾期天数区分是否逾期。

在【逾期天数】列右边插入一列【是否逾期】,使用vlookup函数的模糊查找划分逾期类型。

公式:=VLOOKUP(P2,$U$2:$W$7,2,1),处理之后得到下图结果,筛选检查匹配的信息确认无误。

2)为了分析逾期与贷款金额之间的关系,需要将零散的贷款金额分布划分几个层级,最低是1000元,最高是40000元,因此以5000为一个梯度划分,如下图:

在【贷款金额】右边插入一列【金额类型】,使用if函数划分金额,公式为:

IF(B2<5000,"5K以内",IF(B2<10000,"5K-1W",IF(B2<15000,"1W-1.5W",IF(B2<20000,"1.5W-2W",IF(B2<25000,"2W-2.5W",IF(B2<30000,"2.5W-3W",IF(B2<35000,"3W-3.5W",IF(B2<=40000,"3.5W-4W"))))))))

(公式比较长,主要是为了展现两种不同的划分方法)

6.异常值处理

检查各数据列,没有发现异常值。本以为逾期2000多天是异常值,经计算得出是6年左右,从2012年申请贷款,至数据集上传日正好6年,因此判定无异常。

到此数据清洗的所有步骤已完成,接下来我们开始构建模型。

五、构建模型

1.整体贷款情况

通过图表可以看出,该公司逾期率为39%,虽然不知道整体行业平均是多少,但想想10个客户中约有4个逾期,这是非常严重的。

2.分析逾期原因

根据字段,构建模型需要解决这些问题:逾期用户的借款金额类型、借款期限、贷款利率、评级、借款用途各自如何分布。这些维度之间的关联性如何?

利用数据透视表逐个计算逾期率,图表展现对上述问题中逾期率和各维度的结果进行可视化展现:

贷款金额、期别的逾期率

等级、利率、贷款用途方面的逾期率

结论1:从上面图片得出,逾期率高的用户普遍特征为:

贷款金额:1W-1.5W, 
分期期别:36期,
等级:C级, 
分期利率:0.1-0.15, 
贷款用途:债务合并(逾期率远远大于其他类型)

建议和方案:设定评分准入,将上述五个特征赋予确定的评分标准,根据借款人相关的属性特征,自动计算对应的分值:(下图为分值和准入维度的参考示范),根据分值设置不同的风险对策,分数低于标准线将直接拒贷,从而规避风险。

但不足的是,该数据集中缺少很多客户的个人信息,如性别,年龄,教育,工作等,不能全方位地分析用户特征。

接下来,我们对刚才的用户特征进行深入研究,上面的各项特征只是简单的把各维度中逾期率最高的特征进行平面展示,以此说明各维度中的整体情况,没有细化到逾期率与用户关联的这五个维度特性间的相关性。

那么,对上述结论提出问题:

由于债务合并逾期率远远大于其他类型,因此设想逾期类型为债务合并人群中,是不是1W-1.5W区间贷款金额最高?

基于对数据结论提出的疑问,用切片器选定为债务合并,我们得出下图:


得出结论2:在债务合并中,贷款金额区间在1W-1.5W逾期率最高,其次是1.5W-2W。

所以,这个结论符合上述提到的猜想问题【逾期类型为债务合并人群中,是不是1W-1.5W区间贷款金额最高】。

根据前面的结果,再提出另一个问题:为什么结论2中的贷款金额区间在1W-1.5W逾期率最高?基于现有的数据维度进行分析,是借款利率的原因?分期期别的原因?还是等级的原因?

根据提出的问题,从数据集中选择对应的数据进行验证。那我将贷款利率,分期期别和等级这三个维度进行透视,得出下图:

图中看出C等级下,贷款利率为0.1-0.15的逾期最高。接下来在上图切片器中选择贷款金额区间为1W-1.5W,借款用途为债务合并,验证我们提出的问题。

根据两图结果来看,确实是债务合并与贷款金额区间为1W-1.5W为主要因素,并且进一步得出影响这两者的因素。

结论:

1)借款用途为债务合并中,贷款金额区间为1W-1.5W逾期高的主要分布在C等级,利率为0.1-0.15区间,且36期和60期逾期基本相同

2)其次是D等级,利率为0.15-0.2区间,分期期别为60期。

六、改进建议

因为债务合并是为那些被众多债务纠缠而找不到解决办法的人准备的,它可以将债务人多项负债捆绑起来,组合为一笔新贷款统一偿还,跟信用卡“以卡还卡”类型相似。由此,债务人每月只需面对一个债权人,偿还一笔能够负担的还款额。但因为债务人本身已经背有债务,一旦经济周转不过,还是会产生逾期的风险。

所以提出以下建议:

1)需要调整债务合并的信审策略。对用于债务合并用途的申请,在特定等级,特定利率区间,特定金额区间,要增加审批周期,提高审批标准(如提供紧急联系人电话、核查客户单位真实情况),提高利率,严重的要拒贷。

2)获取更多逾期低(优质客户)群体,相应地降低信审标准,增加公司收益。


本文来自猴子数据分析社群会员项目作业,希望里面的分析思路对你有帮助。现在你可以在留言区回答一开始提出的问题:

1)这个案例是如何展开分析思路的?

2)分析维度有哪些?

3)如何用数据验证提出问题的?

4)分析得出哪些结论?

5)提出了哪些有效的建议?

原文来源:

https://zhuanlan.zhihu.com/p/63203926

推荐:如何用最短的时间找到初级数据分析师工作?

推荐 0
本文由 猴子聊人物 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册