张俊红的博客专栏

数据分析路上的学习者和实践者,与你分享我的所见,所学、所想

1
推荐
1717
阅读

机器学习中非平衡数据处理

这一篇主要说一下机器学习中非平衡数据的处理方式以及用python如何实现.在前面的一篇推文中我们提到过,非平衡数据会影响最后的评判效果,严重的会带来过拟合的效果,即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确,我们需要对非平衡数据进行一定的处理,主要有以下几种方式:欠采样过采样人工合成...

发表了文章 • 2018-03-05 11:31 • 0 条评论

1
推荐
1363
阅读

机器学习模型效果评估

前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用什么来衡量这个效果。这一篇就针对机器学习算法的效果评估指标进行介绍。准确率精确率召回率F1-score交叉报告混淆矩阵ROC/AUC...

发表了文章 • 2018-03-05 11:27 • 0 条评论

8
推荐
2464
阅读

回顾2017展望2018-张俊红年度总结

总第95篇今天是腊月二十七,又到了写年度总结的时候了,今年是写年度总结的第二年,也是第一次生日的时候不在家。通过此文来给22岁画上一个句号。你还可以看去年的总结:张俊红21岁的年度总结职业发展没有投身于煤炭行业选择了互联网选择了数据(图片来源于图灵程序员定制日历/现在也算是半个程序员了)没有选择考研,也...

发表了文章 • 2018-02-12 22:22 • 5 条评论

0
推荐
1625
阅读

信用卡“坏账”客户分析(一)

总第92篇01|背景:随着人们的消费观念的升级,所谓的“花明天的钱,圆今天的梦”。银行以及私营企业推出了各种各样的消费金融服务,具有代表性的是各大银行的信用卡,支付宝的花呗、京东白条,还有一些专门针对针对学生群体的平台,比如趣分期哈、分期乐之类的,把这些统称为信用卡用户。只要涉及到金融借贷的,就有可能有...

发表了文章 • 2018-01-15 11:03 • 0 条评论

1
推荐
1757
阅读

时间序列数据(上)

总第92篇01|时间序列定义:时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。比如,不同时间段某产品的用户数量,以及某个在网站的用户行为,这些数据形成了以一定时间间隔的数据。人们希望通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,尽可能多地从...

发表了文章 • 2018-01-11 10:43 • 0 条评论

1
推荐
1222
阅读

思考的技术

总第90篇本篇来自于管理咨询大师大前研一书籍《思考的技术》中的部分摘录与整理,分享给你。01|转换思路:解决问题的根本就是逻辑思考力,逻辑思考力不但能够让问题迎刃而解,而且能够让我们有一定的先见之明,其实所谓的直觉也是从逻辑思考中产生的。1.1向麦肯锡学习逻辑思维我们在职场、生活中经常会遇到各种各样的问...

发表了文章 • 2017-12-22 15:01 • 0 条评论

2
推荐
1832
阅读

最近租房有点烦!技术人如何用Python找到称心如意的“小窝”?

11 月 18 日,北京西红门镇新建二村“聚福缘公寓”突发火灾。火灾后,随之而来的是一场全北京市的“安全隐患大排查大清理大整治”风暴。聚集着几万外来务工人员的新建村在几天之内被清理一空。很多人正面临着要重新找房子或是离开北京的问题。违建的公寓正在消失,危房出租正在被拆,这些被“风暴”涉及到的外来上班族怎么办?...

发表了文章 • 2017-12-12 15:45 • 0 条评论

0
推荐
1570
阅读

python数据科学-数据预处理

总第88篇数据预处理是我们在做机器学习之前必经的一个过程,在机器学习中常见的数据预处理包括缺失值处理,缩放数据以及对数据进行标准化处理这三个过程。01|缺失值处理:缺失值处理是我们在做数据分析/机器学习过程中经常会遇到的问题,我们需要一种处理不完整数据的策略/方法。对缺失值处理有两种方法,一种是直接对某...

发表了文章 • 2017-12-06 15:31 • 0 条评论

0
推荐
1508
阅读

python数据科学-多变量数据分析

总第87篇01|写在前面:在前面我们研究了单列(变量)数据情况,现实中的案例大多都是多列(变量)的,即影响一件事情的因素有多个,我们除了要看单列数据以外还需要看看这不同列之间是否存在某些联系。常见的关系有四种:无关联、强关联、简单关联和多元(非简单)关联。接下来具体看看具体如何借助可视化对多变量数据进行分析...

发表了文章 • 2017-12-06 15:21 • 0 条评论

2
推荐
1618
阅读

python数据科学-单变量数据分析

总第85篇01|背景:我们在做机器学习之前,需要自己先对数据进行深入的了解(这些数据是什么类型,总共有多少数据,有没有缺失值,均值是多少之类的),只有自己对数据足够了解了,才能够更好地利用机器学习。我们把在正式开始机器学习之前对数据的了解过程成为探索性分析 , 简称 EDA。02|单变量数据分析:单边量数据是指...

发表了文章 • 2017-11-21 11:37 • 0 条评论

1
推荐
1787
阅读

提升方法-Adaboost算法

总第85篇01|基本概念:提升方法的基本思想:对于任何一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独的判断好。先来看两个概念:强可学习和弱可学习。在概率近似正确学习的框架中(简称PAC),一个概念(类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这...

发表了文章 • 2017-11-07 14:51 • 0 条评论

1
推荐
1716
阅读

python在租房过程中的应用

总第84篇01|背景介绍:租房是再普遍不过的一件事情了,我们在租房过程中常考量的两个因素是出租房离公司的远近以及价格,而我们一般都会去链家上看相应的信息,但是链家网只有价格没有距离,对于我这种对帝都不是很熟的人,对各个区域的位置是一脸懵逼,所以我就想着能不能自己计算距离呢,后来查了查还真可以。具体做法...

发表了文章 • 2017-11-07 14:47 • 0 条评论

0
推荐
1855
阅读

逻辑斯蒂回归模型

总第83篇01|基本概念:在介绍逻辑回归模型以前,先介绍一下逻辑斯谛分布。设X是连续型随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数F(x)和密度函数f(x):逻辑斯谛分布的分布函数F(x)的曲线如图所示,其图形是一条S形曲线,曲线在中心附近增长最快,在两端增长速度较慢。当x无穷大时,F(x)接近于1;当x无穷小时,F(x...

发表了文章 • 2017-11-07 14:44 • 0 条评论

0
推荐
1586
阅读

EM算法

总第82篇01|概念及原理:EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代分两步完成:E步,求期望(expectation);M步,求极大值(maximization).所以这一算法称为期望极大算法,简称EM算法。(你看懂了吗?反正我第一次看是一脸懵。没关系接下来通过一个例子,你...

发表了文章 • 2017-11-07 14:38 • 0 条评论

0
推荐
1732
阅读

支持向量机详解

总第81篇(本文框架)01|概念及原理:支持向量机是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。说的通俗一点就是就是在特征空间里面用某条线或某块面将训练数据集分成两类,而依据的原则就是间隔最大化,这里的间隔最大化是指特征空间里面距离分离线或面最近的点到这条线或面的间隔(距离)最大...

发表了文章 • 2017-11-07 14:35 • 0 条评论