3
推荐
1001
阅读

长文收藏|关于模型评估那些事都在这里了

本篇是合集文章,主要供各位童鞋系统学习和日后复习使用。本篇是旧篇中的“如何直观地理解过拟合与欠拟合的那些事”,“分层抽样与交叉验证”及新篇“模型性能度量那些事”的合集,如已看过旧篇的童鞋可以直接跳到第三部分。在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对...

发表了文章 • 2018-04-17 18:22 • 0 条评论

2
推荐
1244
阅读

如何通俗地理解决策树中的信息熵

​好,开篇之前,我们先做好定义:信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?好了,为了解决问题,让我们还是回到定义本身中来。1.信息量第一个问题:信息是什么?它是可以计算的吗?我们先从现实出发,看看信息是否有量化的可能。例如今天阿包告诉我,“广州明天的太阳会从东边升起。”这时我就想,...

发表了文章 • 2017-06-15 23:15 • 2 条评论

0
推荐
1248
阅读

统计挖掘那些事:分层抽样与交叉验证

1留出法(Hold out)与分层抽样留出法就是咱们在上期文章介绍的进行对训练集和测试集进行的划分方法。上期内容:如何直观地理解过拟合与欠拟合那些事~留出法的意思就是直接将总数据D划分为两个对立集合,训练集S以及测试集T,我们有S+T=D,以及S交T等于空集;举个简单例子说明,例如我们在研究客户流失,在集合D中我们有...

发表了文章 • 2017-06-15 22:47 • 0 条评论

0
推荐
983
阅读

如何直观地理解过拟合与欠拟合那些事~

在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规律,但是很显然地,我们的重心还是在于预测上。既然我们是在做预测,不可避免地,就存在对错的问题,就存在这预测准确率的问题。若是用了精度不够的模型,轻则可...

发表了文章 • 2017-01-14 15:04 • 0 条评论

3
推荐
2068
阅读

统计挖掘那些事——强大的逻辑回归(理论+案例)

在上期,浩彬老撕给大家介绍了非线性回归模型,解决了在现实环境中,非线性形式的问题。但是进一步地,我们的因变量也并不总是数值型变量,有可能也是分类型变量,那么对于这种问题,我们能不能也利用回归分析进行适当的扩展,使其也能够解决分类问题?答案显然也是肯定的。附回归文章整理:1.统计挖掘那些事那些情-回归...

发表了文章 • 2017-01-14 14:59 • 2 条评论

1
推荐
1169
阅读

统计挖掘那些事——婀娜多姿的非线性回归(理论+案例)

在现实环境中,我们需要研究的问题有满足线性回归形式的,但是也有很大的一部分并不满足线性关系。例如,我们能够利用自变量x构建回归方程,那么能否利用x的衍生物,x^2构建回归方程?又如,我们能够因变量y构建线性回归方程,那我们能否对y的衍生物,ln(y),构建回归方程?答案显然都是肯定的。事实上,以上婀娜多姿...

发表了文章 • 2017-01-14 14:52 • 2 条评论

1
推荐
2555
阅读

(理论+案例)如何通俗地理解极大似然估计?

极大似然估计最早在1821年首先由咱们的数学王子,高斯所提出。不过人们普遍认为这一方法的广大应用还是主要归功于,现代统计学的奠基人之一,英国统计学习费舍尔。从1912年起,他建立了以最大似然估计为中心的点估计理论。实际上,极大似然估计很直观,按照字面理解,极大似然估计的意思就是最大那种可能的估计。而这种...

发表了文章 • 2016-11-06 22:06 • 3 条评论

2
推荐
1537
阅读

统计挖掘那些事-9个相关R先生不得不说的故事(理论+动手案例)

上一期咱们在多元回归分析中提到(上期传送门:统计挖掘那些事-超详尽回归分析指南(理论+动手案例)),决定系数R^2是我们判断回归方程拟合效果的一个重要标准,但其实关于R的内容实在是太多了,所在咱们这期单独聊聊R先生的故事。没错,这里有9个不同的R先生~某天,一个骚年郎找到老师老师说,感觉对回归的奥妙还是参...

发表了文章 • 2016-10-23 23:10 • 0 条评论

4
推荐
4917
阅读

统计挖掘那些事-超详尽回归分析指南(理论+动手案例)

上期文章:统计挖掘那些事那些情-一元回归分析一、理论部分简单地说,一元线性回归和多元线性回归都属于简单线性回归范畴,最直接的差异在于一元线性回归的自变量只有一个,而多元线性回归的自变量存在多个。尽管主要的解决思路一致,大家可以把一元线性回归看作多元线性回归的特例,但在解决多元的问题上,咱们还是有比...

发表了文章 • 2016-10-07 21:04 • 4 条评论

4
推荐
1706
阅读

统计挖掘那些事那些情(2)-回归分析

前文:统计挖掘的一些事一些情(一)实际上,无论是日常的统计学习还是挖掘学习中,回归分析都可以算是大家最早接触,也是整个体系当中相当重要的一个内容了,所以咱们这期就从回归分析说起吧。一般来说,借助回归分析,我们希望可以量化描述预测变量与响应变量的关系,同时帮助我们进行预测。其他的例子还有:广告的投...

发表了文章 • 2016-09-27 21:15 • 1 条评论

7
推荐
1461
阅读

统计挖掘的一些事一些情(二)——回归分析

实际上,无论是日常的统计学习还是挖掘学习中,回归分析都可以算是大家最早接触,也是整个体系当中相当重要的一个内容了,所以咱们这期就从回归分析说起吧。一般来说,借助回归分析,我们希望可以量化描述预测变量与响应变量的关系,同时帮助我们进行预测。其他的例子还有:广告的投入与市场销售的关系,受教育程度与收...

发表了文章 • 2016-05-22 11:54 • 9 条评论

6
推荐
1391
阅读

统计挖掘的一些事一些情(一)——统计挖掘基本概念

这是这个公众号的第一个系列:统计挖掘的一些事一些情,在这个系列当中,我希望以尽可能“平易近人”的方式和大家讨论一下统计学的一些事一些情,希望大家能够以一种轻松的心态进到这门数据科学当中看一看。这里面会有一些典故,一些场景,一些案例;也会有一些公式,有一些算法,希望大家能够喜欢上这个系列!在这里首先...

发表了文章 • 2016-05-22 11:51 • 4 条评论