大数据时代:数据分析基础

浏览: 1768

基础准备

时代的发展,技术的进步使得数据分析能力成为一项基本的技能(回顾:大数据时代:数据分析能力重要性)。数据量大、数据类型多、价值密度低和处理速度快是现代数据的四个特点,所以现在也被称为大数据时代。

数据分析的算法日益成熟,统计学、数据分析的技术手段被引入到大数据处理过程中,起到重要的作用。数据统计分析是数据分析的常规手段,信度系数检验、关联性分析、数据的离散性分析、聚类分析等被广泛运用。除此之外,遗传算法、神经网络、语义分析、分布式数据库管理等数据处理技术也已经成熟。专业的数据挖掘软件、数据推送技术快速发展。这些都为数据分析成为人们的基本技能提供客观的有力条件。

下面将系统的介绍数据分析的内容。所有发布内容会以导航页的形式归纳在一起,大家可以前往首页下方导航栏目获取。还是那句话,学习是一项系统工程,而非空中楼阁似的离散行为。

数据类型

数据分析的前提是需要明确等待分析数据的特点和形态,根据数据本质的属性,确定一个有效的数据分析策略。从不同的视角,数据有不同的类型,下面介绍最常用的两种数据分类方式。

首先,数据被分为总体数据与样本数据。如果能够直接获取全部的数据,当然最好,但是,由于各种客观原因,研究者无法或不便于获取全体研究对象的整体数据。于是基于某一规则抽取具有代表性的一些数据,以这些数据作为研究样本并开展研究。

其次,数据可以被分为定类数据、定序数据和定距数据。数据的类型很多,这样的分类方式在用分析软件进行数据分析时起到举足轻重的作用。例如,某个学校的学生数据表,“姓名”、“性别”和“班级”是字符串类型,而“语文”、“数学”等成绩则是数值型。在数据分析软件中,要求待处理的数据最好是数值型数据。为此,常常需要对字符型数据进行数值化编码,以便根据其特点采取有效的数据分析策略。数值型数据主要分为三种不同的类型:

定类数据,是指负责对个案实施分类的数值型数据,这类数据只能取整数型数值,而且其取值的大小没有实际意义,也不能进行取均值、计算方差等运算。例如,对性别进行数值化转码,以数值1代表男生,数值2代表女生;还有在同性恋里,0和1分别代表不同角色,嘿嘿!

定序数据,是指依据某个属性对个案进行分级标记的数值型数据。比如,在问卷调查里,用1代表“很不满意”、2代表“不满意”、3代表“一般”、4代表“满意”、5代表“很满意”。这里的数值1~5代表5个等级。

定距数据,是指根据取值范围为连续取值的数值数据。例如,考试成绩、学生身高等都是连续数值。定距数据的取值即可以是整数,也可以是实数。

数据描述统计量

数据分析可以分成两个阶段:数据描述和数据推断。数据可以从三个方面进行描述,数据的集中趋势,数据的离散程度及数据的分布情况,描述它们的统计量有很多,均值、残差、离差、方差或标准差、众数、中位数等。以上这些内容都已介绍并汇总在“统计基础导航页”,请前往下方提示处获取:

image.png

样本数据描述

实际工作中,获取全部数据往往无法实现,只能抽样获取有代表性的样本数据进行分析,以了解总体情况。样本数据统计量在“统计基础”中也已介绍,下面对几个重点内容进行说明。

自由度概念:自由度是指针对具有n个样本的序列,允许自由取值的样本个数。例如,在50名学生的语文成绩表中,若已经知道这50名学生的语文平均分,那么语文成绩可以自由取值的学生就只有49名。很多数据分析中,有n个个案且均值已知,其自由度为n-1,这就是常见的n-1方法。如果除了均值以外,还另外掌握k个其他变量,那么自由度就变为n-k-1。

样本方差及标准差:已经介绍过,样本方差是总体方差的无偏估计,自由度为n-1。但是样本标准差(自由度n-1)是总体的稍有偏估计,偏差程度与样本容量n有关,具体内容可回顾:总体标准差的估计方法及精度

标准误与标准差的区别:标准误也称为标准误差,它的计算公式如下:

image.png

我们常常使用标准差来衡量数据围绕均值波动的程度,但标准差的结果并不是放映波动强度的直接值。标准误才是真正反映整个序列偏离均值程度的准确数据。

差异系数:尽管样本的标准差能够从一定程度上放映数据序列的离散程度,但是会发现,均值相差很大(基数相差很大或量级不同)的两个序列,即使标准差的值相同,其波动程度并不相同。例如,一个序列以“百元”作为工资数据单位,一个序列以“元”作为单位,即使标准差相同,它们的波动程度也不同。差异系数可以解决这个问题,公式为:

image.png

差异系数可以有效的判定数据序列的稳定性水平。

数据分布形态

在数据分析中,数据的分布形态对分析方法、分析结果的衡量都具有重要意义。常见的数据分布形态有正态分布、均匀分布、指数分布、泊松分布等,其中正态分布最常见与有价值。这部分内容也已介绍过,回顾请前往“统计基础导航页”。

数据分析策略

数据分析除了上面介绍得数据统计描述意外,还包括数据差异显著性检验、相关性分析、回归分析、聚类分析、降维分析等内容,这些属于数据推断的范畴。将以上这些分析归纳起来可以分为两个类别:其一是对数据的描述与检验;其二是基于数据建模并依据模型对未来数据实施判定或评价。

image.png

推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册