热炒的“数据”,你了解“它”吗?

浏览: 1967

近几年,包含“大数据”字眼的名词以极高的频率出现在各种传统媒体及网络平台上,营造出“大数据”无处不在、无所不能的舆论气氛,让很多人心向往之,希望自己也能掌握大数据的诀窍,成为洞悉世事的大师。回到“大数据”这三个字上来,什么是数据?什么是大数据?数据有哪些种类?如何分析数据才能得到有用的结论?培养数据分析能力的第一步就是了解数据,能够对数据进行准确分类和描述,这是数据分析运用的基础。

数据的类型

不同类型的数据具有不同的性质,数据性质是选择数据分析方法的决定因素。因此,能对数据进行正确分类是进行数据分析并取得正确分析结果的基础。数据分类的方式有很多,从不同的角度出发,有不同的数据分类结果。例如,从公司运营的角度出发,数据可以分为生产数据、销售数据和财务数据等;从政府关心的经济社会生活角度出发,数据可以分为人口数据、交通数据、物价数据和财政数据等。从方便数据处理和分析的角度出发,常用的数据分类方式有三种,如图2-1所示,分别是从数据结构类型、数据连续状况和数据测量尺度三个角度出发对数据进行分类。

image.png

数据的结构属性分类

根据数据的存储形式,可以将数据分为结构化数据和非结构化数据两种类型。这两种数据类型不仅存储形式不同,而且它们的数据处理和分析方法也有很大差别。数据的结构属性分类位于所有数据分类的顶层,也就是说,这种数据分类方式能够覆盖所有的信息数据。

结构化数据

结构化数据就是我们听到“数据”这个词语时,马上会想起的“数据”形象——各种数值。目前发展最成熟的数据库的存储对象基本上都是结构化数据。结合到典型的应用场景中会更容易理解,比如企业的ERP系统、财务系统、医疗数据库、公共交通卡数据库和政府行政审批系统等数据库基本上都是面向结构化数据的。存储在数据库中的结构化数据能够很方便地进行检索、分析以及展示分析结果。结构化数据是进行数据分析的基本类型,大多数的数据分析方法面向的也都是结构化数据。

非结构化数据

非结构化数据是相对于结构化数据而言的,它的存在形式千变万化,没有统一的规制,包括视频、音频、图片、图像、文档和文本等形式。结合具体的典型例子,例如,医疗影像系统、视频监控系统和媒体资源管理系统等处理的都是非结构化数据。非结构化数据能够存储在这些数据库中,检索主要通过数据信息的名称和关键词进行。目前这类数据基本上无法直接进行数据分析,只能通过量化的方法将非结构化的数据量化为结构化数据,然后才能进行有效的数据分析。例如人脸识别系统,如图2-2所示,它能够快速识别和采集图片中人的脸部特征信息数据,并与数据库中的其他人脸特征数据进行对比,从而判断检索图片里的人是否为目标人。人脸识别系统的分析模型会按照预先设计好的脸部模型对图片中人的脸部特征进行量化处理,形成结构化数据,然后将量化后的脸部结构化数据在数据库中进行检索,从而得出检索结果。非结构化数据类型是互联网中增长速度最快的数据类型,所以非结构化数据的量化分析产业也是数据时代下的发展热点。

image.png

在数据时代,虽然非结构化数据的体量增长速度比结构化数据快得多,但是结构化数据依旧是数据分析的基本类型,大多数情况下,非结构化数据都需要量化为结构化数据以后才能进行有效的分析,所以结构化数据是后面篇章的介绍重点,除了特殊说明的部分,后面提到的数据都是指结构化数据。

数据的连续性特征分类

数据按照它们的连续属性进行分类,可以分为离散型数据和连续型数据。离散型数据和连续型数据大量存在于社会生活中,所以在解释连续型数据和离散型数据之前,我们可以先举一个生活中的例子:现代都市的生活节奏很快,繁忙的都市工作者越来越不愿意将时间浪费在摘菜洗菜的琐碎家务劳动中。因此,农业蔬菜生产企业根据这个社会的发展趋势推出了预处理的包装蔬菜。现在的超市里,一般都有两种蔬菜的销售方式,一种是散装销售(见图2-3),顾客自己挑拣装袋,然后按照蔬菜的重量计算价格,比如6元/kg;还有一种是包装销售(见图2-4),顾客不用挑拣装袋,只需按照蔬菜的包装单位计算价格,比如8元/盒。在这个例子里,蔬菜的重量是连续型数据,而蔬菜的包装单位则是离散型数据。

image.png

连续型数据和离散型数据的区别可以用“点”和“线”的特点来类比。如图2-5所示,由点组成的区间,在这个区间中有无数个点,点与点之间是不连接的,取值时只能取区间中已经存在的点,这些点就相当于离散型数据。由线组成的区间,取值时可以在“线”区间的任意位置取值,而且两个取值之间的距离可以无限小,甚至小到包含无限个小数点,这些从“线”区间抽取的数值就是连续型数据。

连续型数据和离散型数据在数据的分布形态上有明显的区别,而数据的分布形态特征是进行数据分析的重要切入点。因此,对数据进行正确的连续性质的分类是掌握数据分布特点,进而决定数据分析结果准确与否的重要条件之一。

数据的测量尺度分类

测量尺度可以形象的理解为一种测量工具,它可以用于测量事物,从而产生测量数据。例如,用最小刻度为毫米的尺子测量铅笔的长度,可以得到一个以毫米为最小单位的铅笔长度数据。运用测量尺度,每一个被测事物的某个特征都可以与测量尺度上的一个具体数值形成对应关系。根据测量尺度的不同,测量得到的数据可以分为四种类型:定类数据、定序数据、定距数据和定比数据。

定类数据

如果通过测量尺度测量事物的某个特征,得到的特征数据仅仅能够标记事物的不同类别,却不能说明事物的大小、高度或重量等其他量化特征属性,那么这样的数据被称为定类数据。超市的管理经营者可以通过对商品进行品类管理,提高商品的检索和分析效率,并制定针对不同类型商品的营销计划。例如,某个超市将所有的商品分成五类,如下表所示,商品的分类信息被表示为字母、汉字和数字三种形式,它们都能够达到商品分类的目的,但是,由于计算机数据计算和存储的二进制特性,为了提高计算机的运行速度和计算结果的准确性,一般都会将字母和汉字等分类信息数据转换成数值形式或额外添加数值标签,这些数值代表的不是大小信息,而是类别信息,它们之间一般不能进行数值计算。

image.png

定类数据的数值没有数学意义上的大小关系,它们仅仅代表被测量事物分属在哪个不同的类别或范畴里。因此,这些数值只能用于判断事物“等于”或“不等于”某个事物类型,不能进行加减乘除运算,因为运算的结果是没有现实意义的。

定序数据

数据测量尺度分类的第二个数据类型是定序数据。定序数据不但能够将被测事物进行分类,还能够通过定类数据比较被测事物的大小。例如,学校的老师在每次考试结束之后,都会按照学生的考试成绩高低将所有的学生进行排名,这种做法在一定程度上可以在班级或年级中营造你追我赶的学习氛围,提高学生的学习积极性。如下表所示,四个学生按照考试成绩的总分进行排序,这里的总分排名就是定序数据。

image.png

由此可见,定序数据不但具有对事物进行分类的功能,而且还能比较被测事物的大小或高低关系。换句话说,定序数据不但有判断被测事物“等于”或“不等于”某个事物类别的功能,而且还能将被测事物用“大于”或“小于”号连接起来,比较它们之间的大小或高低。

定距数据

定距数据是用定距测量尺度测量事物特征以后得到的数据。定距数据是我们生活中比较常见的数据类型,相较于定类数据和定序数据,定距数据才是对事物特征准确的描述。定距数据不但能够与定类数据一样界定事物的类别,也能够与定序数据一样表示事物的大小或高低次序,还能够计算出事物之间的差距大小。例如,一个班级的学生考试成绩就是定距数据,如上表中的语文、数学和英语成绩,可以根据学生的考试成绩是否大于或等于60分将学生分为及格和不及格两个群体,也可以将三科成绩相加得到总分,然后按照考试成绩总分将所有的学生进行排名,还能够将不同学生的考试成绩相减,得到的数值表示两个学生之间的成绩差距。由此可见,定距数据不仅具备定类数据和定序数据的分类和排序作用,还能够进行数值加减以描述数据之间精准的相加结果或数值差距。定距数据是数据分析中重要的数据类型之一,这是由定距数据的数据性质决定的。

本节小结

掌握数据的分类方法,熟悉不同数据类型的性质是进行数据分析的前提。结构化数据是数据分析的重要对象,非结构化数据往往需要量化为结构化数据才能进行数据分析。连续型数据和离散型数据是依据数据的连续性质划分的,而定类、定序、定距和定比数据是按照测量尺度划分的,这两种数据的分类方法相互关联。

推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册