奔着风险管理和数据分析的目标继续
前几天看了@SHAN的《数据分析工具之Python大法》系列的文章,文中他使用了Lending Club 2016年第一季度的数据,这里也学着自己动手分析一下2016年第四季度的公开数据。
公开数据链接(点击这里)下载数据以及数据说明
- DOWNLOAD LOAN DATA
- DATA DICTIONARY
有关Lending Club公司以及美国其他P2P公司,可以参考Top P2P Companies in the United States
下载数据之后,我们用pandas 读取数据。
import pandas as pd
data = pd.read_csv('LoanStats_2016Q4.csv',header = 0)
data.head()
每一条记录总共有111个变量。
data.describe()
2016年第四季度总共有103546条记录,贷款金额平均在14151.44美元,最小的贷款金额1000美金,最高贷款金额40000美金。
从111个变量中,我们选取25个研究变量
analysis_columns = ['issue_d','term','int_rate','emp_title','grade','home_ownership','verification_status','purpose','loan_amnt','total_pymnt','out_prncp','total_rec_int','total_rec_prncp','installment','annual_inc','dti','fico_range_low','fico_range_high','last_fico_range_low','last_fico_range_high','open_acc','loan_status','delinq_amnt','acc_now_delinq','tot_coll_amt']
deal_data = data.loc[:,analysis_columns]
1、第四季度按月贷款笔数以及贷款金额总量
deal_data.groupby('issue_d').agg({'loan_amnt':'sum'}).plot(kind="bar")
deal_data.groupby('issue_d').agg({'issue_d':'count'}).plot(kind = 'bar')
2016年10月到12月,贷款总金额以及贷款笔数都逐步增加,12月的贷款金额突破5亿美金,贷款笔数也突破了35000笔。
2、第四季度贷款目频率分布分析
deal_data.groupby('purpose').count().loc[:,"issue_d"].plot(kind ='bar')
可以看到主要的目的是debt consolidation,大概有占到57.7%,其次是用于信用卡,之后是房屋改善。对于debt consolidation,我的理解就是用一个新的贷款,贷出来的钱去偿还另外的贷款。
Debt consolidation is a form of debt refinancing that entails taking out one loan to pay off many others.
3、第四季度贷款金额频率分布
sns.distplot(deal_data['loan_amnt'])
贷款金额数目的频率分布图中,在每个整数金额出都会出现一个小波峰;从整体来看,贷款金额主要集中在10000美金附近(与之前的贷款金额平均数统一)
4、不同评分等级的每月贷款总量分布
chart2 = deal_data.groupby(['issue_d','grade']).agg({'loan_amnt':'sum'})
a = sns.barplot(lchart2.index,cloanbygroup['loan_amnt'])
a.set_title('loan amount by grade and by month')
从第四季度来看,A,B,C,D,E,F,G等级的分布基本一致。B,C类评级的数量占比大概50%以上。
5、贷款人群中房屋拥有情况分析
a = deal_data.groupby('home_ownership').agg({'home_ownership':'count'})
a.plot.pie(subplots=True,autopct='%1.1f%%',figsize=(8,8))
有房的群体贷款占比明显低于有房贷或者租房子的群体。49%的的群体是有房贷,联系debt consolidation的占比,是否可以联想到有房贷的群体主要目的是为了偿还房贷呢?
a = deal_data[deal_data.home_ownership == 'MORTGAGE']
a.purpose.value_counts().plot.pie(autopct='%1.1f%%',figsize = (8,8))
我将有房贷的群体提取出来,以房贷群体为样本,计算贷款目的比例。debt consolidation的占比仅有少许增加,所以上面的猜想并不正确。
回顾所有的分析,主要是对Lending Club的第四季度业务回顾,下面附带我从google 上截取了Lending Club收益情况。