如何在极度不平衡模型中找到欺诈客户

浏览: 2607

作者:zhaikun   风控建模屌丝一枚,现居于北京

个人微信公众号:Python数据分析与评分卡建模

今天给大家介绍一种基于高斯分布的异常样本检测方法。

数据获取方式:关注Python爱好者社区后回复 检测 即可

image.png

28万行,31列。

image.png

严重不平衡。

看下分布:

image.png

image.png

对数转换下:

dataset['Amount'] = np.log(dataset['Amount'] + 1)

dataset['Time'] = np.log(dataset['Time'] + 1)

再次看下分布:

image.png

image.png

下面数据集切分:

image.png

下面计算均值和协方差

image.png

然后计算不同阈值下的召回率、命中率和F2

image.png

发现F2分数是0.78,已经很高了。要知道我们可没有过采样/欠采样。

下面看下混淆矩阵:

image.png

效果很好。

数据获取方式:关注Python爱好者社区后回复 检测 即可



Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复课程即可获取

小编的Python入门视频课程!!!

崔老师爬虫实战案例免费学习视频。

丘老师数据科学入门指导免费学习视频。

陈老师数据分析报告制作免费学习视频。

玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

丘老师Python网络爬虫实战免费学习视频。

image.png

推荐 2
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

虽然什么也看不懂,但是感觉很厉害的样子
嘿 文中有代码的 可以一点一点跟着操作试试~~~一起加油

要回复文章请先登录注册