记录我是如何转型大数据分析(三)——Lending Club分析

浏览: 2299

Clipboard Image.png

奔着风险管理和数据分析的目标继续

前几天看了@SHAN的《数据分析工具之Python大法》系列的文章,文中他使用了Lending Club 2016年第一季度的数据,这里也学着自己动手分析一下2016年第四季度的公开数据。

公开数据链接(点击这里)下载数据以及数据说明

  • DOWNLOAD LOAN DATA
  • DATA DICTIONARY

有关Lending Club公司以及美国其他P2P公司,可以参考Top P2P Companies in the United States

下载数据之后,我们用pandas 读取数据。

import pandas as pd

data = pd.read_csv('LoanStats_2016Q4.csv',header = 0)
data.head()

Clipboard Image.png

每一条记录总共有111个变量。

data.describe()

Clipboard Image.png

2016年第四季度总共有103546条记录,贷款金额平均在14151.44美元,最小的贷款金额1000美金,最高贷款金额40000美金。

从111个变量中,我们选取25个研究变量

analysis_columns = ['issue_d','term','int_rate','emp_title','grade','home_ownership','verification_status','purpose','loan_amnt','total_pymnt','out_prncp','total_rec_int','total_rec_prncp','installment','annual_inc','dti','fico_range_low','fico_range_high','last_fico_range_low','last_fico_range_high','open_acc','loan_status','delinq_amnt','acc_now_delinq','tot_coll_amt']

deal_data = data.loc[:,analysis_columns]

Clipboard Image.png

1、第四季度按月贷款笔数以及贷款金额总量

deal_data.groupby('issue_d').agg({'loan_amnt':'sum'}).plot(kind="bar")
deal_data.groupby('issue_d').agg({'issue_d':'count'}).plot(kind = 'bar')

Clipboard Image.png

Clipboard Image.png

2016年10月到12月,贷款总金额以及贷款笔数都逐步增加,12月的贷款金额突破5亿美金,贷款笔数也突破了35000笔。

2、第四季度贷款目频率分布分析

deal_data.groupby('purpose').count().loc[:,"issue_d"].plot(kind ='bar')

Clipboard Image.png

可以看到主要的目的是debt consolidation,大概有占到57.7%,其次是用于信用卡,之后是房屋改善。对于debt consolidation,我的理解就是用一个新的贷款,贷出来的钱去偿还另外的贷款。

Debt consolidation is a form of debt refinancing that entails taking out one loan to pay off many others.

3、第四季度贷款金额频率分布

sns.distplot(deal_data['loan_amnt'])

Clipboard Image.png

贷款金额数目的频率分布图中,在每个整数金额出都会出现一个小波峰;从整体来看,贷款金额主要集中在10000美金附近(与之前的贷款金额平均数统一)

4、不同评分等级的每月贷款总量分布

chart2 = deal_data.groupby(['issue_d','grade']).agg({'loan_amnt':'sum'})
a = sns.barplot(lchart2.index,cloanbygroup['loan_amnt'])
a.set_title('loan amount by grade and by month')

Clipboard Image.png

从第四季度来看,A,B,C,D,E,F,G等级的分布基本一致。B,C类评级的数量占比大概50%以上。

5、贷款人群中房屋拥有情况分析

a = deal_data.groupby('home_ownership').agg({'home_ownership':'count'})
a.plot.pie(subplots=True,autopct='%1.1f%%',figsize=(8,8))

Clipboard Image.png

有房的群体贷款占比明显低于有房贷或者租房子的群体。49%的的群体是有房贷,联系debt consolidation的占比,是否可以联想到有房贷的群体主要目的是为了偿还房贷呢?

a = deal_data[deal_data.home_ownership == 'MORTGAGE']
a.purpose.value_counts().plot.pie(autopct='%1.1f%%',figsize = (8,8))

Clipboard Image.png

我将有房贷的群体提取出来,以房贷群体为样本,计算贷款目的比例。debt consolidation的占比仅有少许增加,所以上面的猜想并不正确。

回顾所有的分析,主要是对Lending Club的第四季度业务回顾,下面附带我从google 上截取了Lending Club收益情况。

Clipboard Image.png

推荐 1
本文由 生活缺乏心跳 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册