数据取经团

每天都有收获,每天有所突破,加油,坚持。

0
推荐
1989
阅读

Logistic回归及其在Python中的一个实现

一、回归分析的不足我们大家对回归分析很清楚,但是有这样一类变量,它们的因变量不是连续型变量,而是分类变量。比如这件商品是买还是不买;某个病人是否已经痊愈。这种现象是经常出现的。我们以这件商品买和不买来进行讨论。用“1”来表示“买”,用“0”来表示“不买”。在这里,我们记“买”的概率为P(y=1),记“不买”的概率为P...

发表了文章 • 2017-07-19 19:21 • 0 条评论

1
推荐
2815
阅读

分类算法—朴素贝叶斯

一、基础统计学知识(虽然枯燥,但是硬着头皮也要看)二、基于朴素贝叶斯定理的条件概率三、朴素贝叶斯分类的工作流程四、朴素贝叶斯分类中需要注意的问题⑴每一个属性值在给定类上面的影响是独立于其他属性的,也就是说属性与属性之间是相互独立的,称之为“类条件独立性”。⑵如果属性是分类变量,那么“边际似然概率”是可以...

发表了文章 • 2017-07-05 11:02 • 0 条评论

0
推荐
4460
阅读

Logistic回归的几种特殊形式

我们上周对Logistic回归已经有了初步的认识,Logistic回归就是在因变量不是连续型变量,而是分类变量的情况下来考虑的解释变量和被解释变量之间的关系的一个模型。下面我们来讨论Logistic回归的几种特殊情况。一、哑变量设置在Logistic回归中,如果自变量是只有两个水平的分类变量,我们就可以只用前面提到的Logistic回...

发表了文章 • 2017-07-05 10:55 • 0 条评论

0
推荐
1805
阅读

PCA,不得不提的降维手段

主成分分析(principal components analysis)1.前期需要掌握的知识点及其相关课程:⑴高等代数/线性代数:线性方程组、特征值和特征向量⑵统计学:方差分析等2.主成分分析思想:主成分分析是利用降维的思想,在损失较少信息的前提下,用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分,...

发表了文章 • 2017-07-05 10:46 • 0 条评论

0
推荐
5213
阅读

因子分析的背景、理论及其应用,不看会后悔滴!

因子分析 (factor analysis)完成本篇博文,作者前期阅读的数目有:张文彤老师的《SPSS统计分析高级教程》高桥老师的《漫画统计学之因子分析》何晓群老师的《多元统计分析》1.前期需要掌握的知识点及其相关课程:⑴高等代数/线性代数:线性方程组、特征值和特征向量⑵统计学:方差分析等2.因子分析思想:因子分析就是...

发表了文章 • 2017-07-05 10:33 • 0 条评论

0
推荐
1544
阅读

决策树之ID3和C4.5

一、决策树一种树状分类结构模型,是一种通过对变量值拆分建立起来的分类规则,又利用树形图分割形成的概念路径的数据分析技术。二、决策树的两个关键步骤三、决策树的构建步骤注:⑴第一步中:先找出各个可以作为分类变量的自变量的所有可能的划分条件,再对每一个自变量比较各个划分下所得到的两个分支的差异大小,差异...

发表了文章 • 2017-07-01 10:30 • 0 条评论

2
推荐
2397
阅读

自我代码提升之逻辑回归

作者:数据取经团-王嘉琪   对于数据挖掘或是机器学习等相关算法的学习,用代码将之实现是从理论到实践的有效途径,而目前在数据科学应用领域,很多成熟的工具(诸如python的sklearn模块或是各种各样的R包),为我们的学习和工作提供了便利。但这并不意味着自己动手去实现算法失去了意义,在学习阶段,自我去...

发表了文章 • 2017-07-01 10:20 • 0 条评论

0
推荐
2857
阅读

数据分析面试总结一

本人于2018年6月份硕士毕业,2017年,为了找实习找工作四处奔波,前前后后投了100多次简历,面了30多家公司。在这期间,经历的丢手机从人间蒸发的惨状,也经历了两个半月减掉15g体重的神奇现象。总而来说,过程很艰辛,结果还是很美好。下面是我的面试经过。第一个单位:北京互联网金融公司。一共有三面,第一面是技术面...

发表了文章 • 2017-07-01 10:15 • 0 条评论