Python数据科学-技术详解与商业实践-第八讲作业(本次作业大家跟帖讨论)

浏览: 1977

涉及内容:信用卡客户流失预警模型-CRISP_DM建模流程、数据清洗、变量压缩、模型开发与评估

1、背景介绍:

随着信用卡市场的成熟,人均持卡量不断增加,加上第三方支付牌照的持续发放,人们可选择的支付手段不断丰富,信用卡客户流失(销卡)呈现常态化。C银行在国内信用卡市场中处于领先地位,管理层非常重视客户生命周期管理并取得了良好的回报,为进一步完善对客户流失及挽留环节的管理,管理层要求建立大数据模型,基于对客户销卡决心和预期价值的准确预测,制定差异化挽留策略,实现收益与成本的最佳平衡。具体来说,当客户打进电话提出销卡时,将客户的销卡决心、预期价值以及相应的应对策略,展示在客服人员的工作指导窗口上,在客户挽留环节改进客户体验,加强对潜在高价值客户的挽留力度。。

本次作业根据提供的数据(“CSR_CHURN_Samp.csv”,引用自陈春宝等出版的《SAS金融数据挖掘与建模》)信用卡客户流失预警模型。

2、本案例涉及的部分变量说明如下:

STA_DTE 数据提取时间

Evt_Flg 是否流失

Age 年龄

Gen 性别,1=男

Buy_Type 近一个月主要的购物类型

R3m_Avg_Cns_Amt 近3个月月均消费金额

R6m_Avg_Rdm_Pts 近6个月月均兑换积分

R12m_Avg_Cns_Cnt 近12个月月均消费次数

R6m_Cls_Nbr 近半年还款拖欠次数

Ilt_Bal_Amt 当前分期未还余额

Lmth_Fst_Ilt 累计分期产品办理次数

Lmth_Fst_Int 累计小额信贷申请次数

Csr_Dur 累计持卡时长

R6m_Call_Nbr 近半年投诉次数

Total_Call_Nbr 累计投诉次数

Net_Cns_Cnt 累计网上交易次数

Ovs_Cns_Amt 累计境外交易次数

其他略:学习到这个阶段,已经可以适应不需要知道变量含义,凭借数据分析工序建立分类模型的状态。

3、作业安排:

3.1 基础知识:

      1)分箱的作用,WOE和IV的作用;

      2)比较IV法和统计检验法筛选变量重要性之间的异同。

3.2 案例解答步骤如下:

     1)根据STA_DTE字段进行拆分,分出建模和测试数据集

     2)对涉及的X进行分箱,计算分箱后X的WOE值和IV值。考虑数据清洗和缺失值处理

     3)进行解释变量X之间的信息压缩。

    4)使用逻辑回归建模并检验


###############################################################

以下视频都是R语言的,学习python的同学只需要听统计和数据挖掘算法基础即可。

第9讲预习视频:

链接: https://pan.baidu.com/s/1_tHWEgIoDfhdt3lJsfuFLQ 密码: b47p

推荐 0
本文由 ben chang 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

请问在使用WOE包做连续变量与预测值相关性检验时,出现报错unsupported operand type(s) for -: 'str' and 'str'。要怎么处理呢?
执行语句
iv_b = {}
for i in var_b:
iv_b[i] = WoE(v_type ='c',t_type ='b',qnt_num = 3).fit(X[i],Y).iv

要回复文章请先登录注册