零基础入门数据分析

浏览: 2148

可能很多小伙伴说,我非常想学习数据分析,为我的工作加油,那么需要学习什么基础知识呢,下面这张图是我在网上找来的,大家有可能看不清楚,我这里给大家概括讲解一下,简单来说,完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展现。6、专业报告。7、持续验证与跟踪。

Clipboard Image.png

那么下面呢就给大家一个入门的捷径:第一门必修课:统计学,下面就有王宇童老师给大家带来统计学的分享。

大家好,我是这门统计学基础的讲师,我叫王宇童Olivia,很高兴可以和大家共同学习探讨这门统计学基础课程。

这门课主要是服务于我们菜鸟数据的一整套课程,像接下来大家会接触到的R语言等等。统计学呢,是大数据分析的一个重要的基础。这些基础的知识有可能大家因为之前自己专业的缘故并没有系统地学过,或者可能都忘记了,只是零零散散的记忆。

首先,当看到这门课时,我们的脑海里一定会出现以下这三个问题:什么是统计学?为什么要学习统计学?以及统计学有怎样的应用?我们说,统计学是百分之百面向实际应用的,是搜集、分析、表述和解释数据的科学与艺术。

为什么说它是科学?

在商业和经济活动中,我们搜集与项目或课题相关的数据,对他们进行归类、分析,提取重要的信息并予以表述,这样做可以帮助管理者或决策者更加清晰地洞察市场和经济环境,做出更加科学、优化的决策。

就比如说,新加坡的亚洲竞争力研究中心,其中一份影响很深的研究报告是关于中国34个省包括港澳台地区的综合竞争力评估,通过搜集中国34个省份10年内的102项经济指数,进行数据分析,从中发现发展的趋势和特点,来为新加坡政府及企业在中国的投资决策提供建议。而在这个过程中无论是对庞大的数据进行分析,还是通过饼状图、柱状图等等数据可视化的方法进行表述,都会用到我们即将要学习到的统计学知识。

为什么说它是艺术?

中国的GDP每年以7%的速度增长,现在却降到7以下,对于这样的数据,有些偏悲观的人认为,中国经济放缓,对这个数据表示担忧。而有些人看到这样的数据,可能会综合考虑到中国经济发展到达了转型期,而这也就是一个必然的结果。同时相比较其他在转型期的国家,别人可能经济数据更差,而中国经济是软着陆,而不是硬着陆,这反而是一个乐观的数据。所以说,对于同一组数据,每个人因为考虑的因素不同,想法不同会有不同的见解,这就是一门艺术了嘛。

Clipboard Image.png

统计学包括描述统计学和推断统计学。

描述统计学是指使用特定的图标和数字来体现数据的集中程度和离散程度。例如工厂一个月中每天生产零件的平均数量、最高数量、每小时生产数量的分布是属于描述统计学的范围。

推断统计学是指根据样本数据推断总体数据的特征。例如工厂生产零件的质量的检验,一般会采取抽样检验,根据所抽取的样本的质量合格率对总体的质量合格率进行一个估计。
这在之后的课程我们会逐步讲解,在这里就不多说了。

统计学的应用是十分广泛的,例如会计:会计师事务所在为客户提供审计时,很难去详细查看和验证每一笔账款,因此就需要使用统计抽样的程序,通过选子集,来确定客户所提供的账面上的收入是否真实地反应了实际账款的金额。同样,在市场营销中,如何通过分析搜集到的数据,理解促销活动和销售额之间的关系。

推荐读物:

那么,我们身边其实到处都体现着统计学知识的应用,大家有时间的话,推荐大家读一读这些读物。这里面的文章体现了如何依据统计数据做出预测、判断或者是结论。

Clipboard Image.png

课程知识体系:

Clipboard Image.png

描述统计学:表格法、图形法和数值法 我们在学习的过程中都会一一介绍,当然,这些都是统计学中最基本的,关键还是要看如何根据实际情况进行应用,有效得解决实际问题。

概率:由浅入深,从复习简单的计数法则、加法公式、乘法公式、再到条件概率和贝叶斯定理。

概率分布:接着,我们会对概率的研究进一步扩展,引入随机变量和概率分布的概念。随机变量分为离散型随机变量和连续型随机变量。

抽样和抽样分布:学习如何从总体中选取样本,以及如何用抽样得到的数据计算总体的估计值。此外,我们还会介绍抽样分布的概念,抽样分布可以使我们了解样本估计值与相应的总体参数的接近程度。

区间估计:我们往往不能从点估计量给出总体参数的精确值,所以会在估计量的基础上进一步计算区间估计。

假设检验:顾名思义,假设检验就是检验假设,我们会学习对总体均值、总体比率和总体方差进行假设检验。我给大家举几个例子:
对总体均值进行假设检验的应用

比如说某家企业的产品研发小组研制出一种新型的的产品,在企业投入生产之前,我们需要知道新型产品是不是比现有产品好,那么,我们就可以对新产品的性能,比如说,完成某项任务的平均时间是否小于现有产品完成该任务的平均时间,进行假设检验。
总体比率的假设检验

某种软件推出了一项新的专门面向女性消费者的销售策略,运行一段时间以后,我们就想知道,这个策略到底有没有效果啊。我们需要知道该软件用户的男女比率是否有产生了变化。在这里,我们就会对总体比率进行假设检验。
两总体均值和总体比率的推断

我们也可以对两个总体均值或比率进行假设检验:我们可能需要男女两个总体的平均起薪的差异进行假设检验,或者对供应商A和供应商B所生产的产品中次品的比率是否存在差异进行假设检验
总体方差的统计推断

举例说明:灌装牛奶的生产工序,尽管说一千克的平均值是作为标准,是我所期望的,我们不能指望每个容器的平均重量都是恰好一千克。因此灌装量的方差也很关键,如果方差过大,即使平均值是一千克,也可能出现过度灌装或灌装不足的情况。
拟合优度检验和独立性检验

继续扩充我们对总体统计推断的能力。拟合优度检验和独立性检验的数据呢都是分类型的,所使用的检验统计量都是基于不同的概率分布。

实验设计和方差分析

方差分析ANOVA的统计方法如何能用于现有数据分析。
简单线性回归

进入到回归分析的学习。我们知道,管理决策往往取决于对两个或多个变量之间的关系进行分析。比如说:权衡广告费与销售额之间的关系,每日最高气温和用电量之间的关系。
如果能取得这些数据,我们可以利用统计方法来建立模型,进行分析。
我们从简单线性回归入手,考虑两个变量之间的关系,进而考虑更多的因素,学习多元回归 。
时间序列分析和预测

时间序列也是在学习统计学时候的重点,最后,大家在学习有关统计学的时候有问题的话呢,可以在天善社区上给我留言,谢谢大家。

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

第二门必修课:R语言和数据挖掘基础,下面呢我来给大家介绍一下这两门知识的学习路径。

首先R语言是一门非常强大的数据分析工具,第一:它是免费的,第二:它很好入门,第三:它的普适性很强,解释一下:R语言的部署是非常简单的,它适用于几乎所有的数据库,可以导入几乎所有的数据源,很方便自学(顺便吐槽Spark),目前为止R语言的学习的资料是非常之多的,2500个包,几乎可以满足你所有的日常的工作,如果你的统计学基础比较OK 的话,是非常好入手的,推荐大家一本《R语言实战》,大家拿着这本书,把里面所有的代码都敲一遍,编一个数据,练习下,就很快会掌握R语言的使用技术了。

再来我们来说一下数据挖掘的算法,目前为止呢,数据挖掘常用的算法呢,就是基础的算法,大家可以看到PPT中给大家列举出来了,所谓的高深就是大家缺乏实际应用的场景,比如反欺诈用什么算法,购物车分析用什么算法,这里面我比较建议大家买一本《数据挖掘导论》,这本书呢相对而言对初学者是比较容易上手的,其中呢,我们要重点学习的就是数据挖掘常用的十大算法,同时也有这本书《数据挖掘十大算法》,大家可以买来好好的研读下,多去实际操作一下。

Clipboard Image.png

除了这些技术之外呢,大家可以看到上一张PPT,有这么多的技术是数据相关的,我画框框的部分,是我比较推荐大家去学习的,SQL、Mysql、Tableau,Python,当然如果你的工作环境允许的话,你可以研究一下spark,在你基础OK的前提下。

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

因为时间的关系呢,Tableau的学习重点和数据可视化及报告的攥写在这里就不给大家详细的介绍了,数据报告可以说是收口的一个程序,是非常重要的,对于不同的分析报告,重点有所不同,对于不同的汇报的人,它的内容和形式,关注点也是不同的,这个部分,有时间的话,再让白晓岚和潘维两位美女讲师给大家详细的分享。

大家原谅我是真的比较懒,这个Tableau是之前课程整理的重点,不是在打广告,我就是懒得再整理了,大家看看,学习的时候可以着重学习,书籍和学习的资料也是很多的,推荐大家关注一个微信平台AAS数据可视化,同时GrowingIO这个平台也是很好的,大家可以关注下,哈哈哈,这里打个广告,欢迎关注天善智能平台和菜鸟数据平台,也是满满的干货!

推荐 3
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册