大数据时代：数据分析基础

发表: 2017-05-23 浏览: 1768

大数据数据分析

基础准备

时代的发展，技术的进步使得数据分析能力成为一项基本的技能（回顾：大数据时代：数据分析能力重要性）。数据量大、数据类型多、价值密度低和处理速度快是现代数据的四个特点，所以现在也被称为大数据时代。

数据分析的算法日益成熟，统计学、数据分析的技术手段被引入到大数据处理过程中，起到重要的作用。数据统计分析是数据分析的常规手段，信度系数检验、关联性分析、数据的离散性分析、聚类分析等被广泛运用。除此之外，遗传算法、神经网络、语义分析、分布式数据库管理等数据处理技术也已经成熟。专业的数据挖掘软件、数据推送技术快速发展。这些都为数据分析成为人们的基本技能提供客观的有力条件。

下面将系统的介绍数据分析的内容。所有发布内容会以导航页的形式归纳在一起，大家可以前往首页下方导航栏目获取。还是那句话，学习是一项系统工程，而非空中楼阁似的离散行为。

数据类型

数据分析的前提是需要明确等待分析数据的特点和形态，根据数据本质的属性，确定一个有效的数据分析策略。从不同的视角，数据有不同的类型，下面介绍最常用的两种数据分类方式。

首先，数据被分为总体数据与样本数据。如果能够直接获取全部的数据，当然最好，但是，由于各种客观原因，研究者无法或不便于获取全体研究对象的整体数据。于是基于某一规则抽取具有代表性的一些数据，以这些数据作为研究样本并开展研究。

其次，数据可以被分为定类数据、定序数据和定距数据。数据的类型很多，这样的分类方式在用分析软件进行数据分析时起到举足轻重的作用。例如，某个学校的学生数据表，“姓名”、“性别”和“班级”是字符串类型，而“语文”、“数学”等成绩则是数值型。在数据分析软件中，要求待处理的数据最好是数值型数据。为此，常常需要对字符型数据进行数值化编码，以便根据其特点采取有效的数据分析策略。数值型数据主要分为三种不同的类型：

定类数据，是指负责对个案实施分类的数值型数据，这类数据只能取整数型数值，而且其取值的大小没有实际意义，也不能进行取均值、计算方差等运算。例如，对性别进行数值化转码，以数值1代表男生，数值2代表女生；还有在同性恋里，0和1分别代表不同角色，嘿嘿！

定序数据，是指依据某个属性对个案进行分级标记的数值型数据。比如，在问卷调查里，用1代表“很不满意”、2代表“不满意”、3代表“一般”、4代表“满意”、5代表“很满意”。这里的数值1~5代表5个等级。

定距数据，是指根据取值范围为连续取值的数值数据。例如，考试成绩、学生身高等都是连续数值。定距数据的取值即可以是整数，也可以是实数。

数据描述统计量

数据分析可以分成两个阶段：数据描述和数据推断。数据可以从三个方面进行描述，数据的集中趋势，数据的离散程度及数据的分布情况，描述它们的统计量有很多，均值、残差、离差、方差或标准差、众数、中位数等。以上这些内容都已介绍并汇总在“统计基础导航页”，请前往下方提示处获取：

样本数据描述

实际工作中，获取全部数据往往无法实现，只能抽样获取有代表性的样本数据进行分析，以了解总体情况。样本数据统计量在“统计基础”中也已介绍，下面对几个重点内容进行说明。

自由度概念：自由度是指针对具有n个样本的序列，允许自由取值的样本个数。例如，在50名学生的语文成绩表中，若已经知道这50名学生的语文平均分，那么语文成绩可以自由取值的学生就只有49名。很多数据分析中，有n个个案且均值已知，其自由度为n-1，这就是常见的n-1方法。如果除了均值以外，还另外掌握k个其他变量，那么自由度就变为n-k-1。

样本方差及标准差：已经介绍过，样本方差是总体方差的无偏估计，自由度为n-1。但是样本标准差（自由度n-1）是总体的稍有偏估计，偏差程度与样本容量n有关，具体内容可回顾：总体标准差的估计方法及精度。

标准误与标准差的区别：标准误也称为标准误差，它的计算公式如下：

我们常常使用标准差来衡量数据围绕均值波动的程度，但标准差的结果并不是放映波动强度的直接值。标准误才是真正反映整个序列偏离均值程度的准确数据。

差异系数：尽管样本的标准差能够从一定程度上放映数据序列的离散程度，但是会发现，均值相差很大（基数相差很大或量级不同）的两个序列，即使标准差的值相同，其波动程度并不相同。例如，一个序列以“百元”作为工资数据单位，一个序列以“元”作为单位，即使标准差相同，它们的波动程度也不同。差异系数可以解决这个问题，公式为：

差异系数可以有效的判定数据序列的稳定性水平。

数据分布形态

在数据分析中，数据的分布形态对分析方法、分析结果的衡量都具有重要意义。常见的数据分布形态有正态分布、均匀分布、指数分布、泊松分布等，其中正态分布最常见与有价值。这部分内容也已介绍过，回顾请前往“统计基础导航页”。

数据分析策略

数据分析除了上面介绍得数据统计描述意外，还包括数据差异显著性检验、相关性分析、回归分析、聚类分析、降维分析等内容，这些属于数据推断的范畴。将以上这些分析归纳起来可以分为两个类别：其一是对数据的描述与检验；其二是基于数据建模并依据模型对未来数据实施判定或评价。

0 个评论

要回复文章请先登录或注册