作业内容:
C银行信用卡中心在对欺诈风险和反欺诈技术作了充分研究之后,融合内外部数据,建立以评分模型为支撑的欺诈识别和防范系统,以满足精细化管理的需要。本次作业根据提供的数据(“FRAUD_TRAIN_Samp.csv”,引用自陈春宝等出版的《SAS金融数据挖掘与建模》)建立信用卡申请反欺诈模型。
解答步骤:
1)使用决策树、神经网络、组合算法建立反欺诈模型,比较三个模型的表现。
2)自学绘制PR曲线:横轴为精确度(Precise),纵轴为召回率(Recall)
作业结果:
1)用了决策树, 神经网络和随机森林,SMOTE过采样后的数据表现优于原始数据、随机过采样和综合采样;而决策树结果又优于神经网络和随机森林。
2)使用函数:metrics.precision_recall_curve 来绘制PR曲线, 红线为训练样本,蓝色为测试样本。可以看出测试样本中的target=1的值很少
下图X轴为Precise, Y轴为Recall
下图X轴为Recall, Y为Precise
PS:采样数据中NaN值比较多,在数据预处理中去除了列‘F75’开始的所有列,将列‘F46’中NaN值用‘-1’替换。
Precision:预测为对的当中,原本为对的比例,越大越好,最大为1
Recall:原本为对的当中,预测为对的比例,越大越好,最大为1