2
推荐
1880
阅读

一位数据分析师的书单

随着最近新人的入职,发现自己之前给的书单过时了。更新一版,希望对大家有所帮助。统计学及机器学习入门《赤裸裸的统计学》《深入浅出统计学》《概率论与数理统计》(茆诗松)《机器学习》(周志华)数据分析技能《深入浅出数据分析》《Excel图表之道》《精益数据分析》《数据化决策》《R语言实战》《数据挖掘与R语言》...

发表了文章 • 2017-03-27 12:17 • 0 条评论

4
推荐
1814
阅读

数据驱动决策的13种思维

“数据驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,相信将来你一定能用上!~第一、信度与效度思维这部分也许是全文最难理解的部分,但我觉得也最为重要。没有这个思维,决策者很有可能在数据中迷失。信度与效度的概念最早来源于调查分析,但现在我觉得可以引申到数据分析工作的各方面。**所谓信度,...

发表了文章 • 2017-02-08 10:26 • 1 条评论

3
推荐
1719
阅读

快速认知数据的详细步骤(四)

相关系数,一个在数据应用中极为普遍却极为容易用错的概念。有必要单独进行讨论。利用相关系数理解数据之间的关系传统的数据认知过程到“数据分布”这个环节就应该结束了。但我准备搬出自己的几个“土方法”,来让各位领略一下江湖偏方的效果。首先要说的就是相关系数。相关系数的计算公式你大可不必在意,只需要理解:相关...

发表了文章 • 2017-02-07 11:20 • 1 条评论

1
推荐
1925
阅读

快速认知数据的详细步骤(三)

初步认知数据分布拿到一个数据集,你先检查了数据源的质量,然后通过数据清洗提升了数据集的质量,再通过平均数的计算了解了数据集大小的一般水平,接着又通过方差和标准差了解了波动变化。经过这一系列的操作,你对数据有了一定的认知。但这就够了吗?答案是否定的。在数据的快速认知中,我们还需要对数据分布进行探索...

发表了文章 • 2017-02-07 11:19 • 0 条评论

4
推荐
1548
阅读

快速认知数据的详细步骤(二)

读完上一篇的你,或许会觉得我说的内容太琐碎,太简单。那么进入第二步,许多和“数”相关的东西,就要在此展开了。必要的描述统计分析从审核数据源质量,到提升数据集质量,再到明确数据类型和单位,走完这三步,你就完成了数据清洗的过程。你是觉得被扒了层皮还是神清气爽?我的文字并不有趣,想必你一定相当疲累。那么...

发表了文章 • 2017-01-19 15:05 • 2 条评论

6
推荐
3016
阅读

我理解的朴素贝叶斯模型

我想说:“任何事件都是条件概率。”为什么呢?因为我认为,任何事件的发生都不是完全偶然的,它都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。条件概率是朴素贝叶斯模型的基础。假设,你的川术公司正在面临着用户流失的压力。虽然,你能计算用户整体流失的概率(流失用...

发表了文章 • 2017-01-18 09:28 • 4 条评论