数据预处理

浏览: 1171

数据预处理是对收集到的数据进行加工、整理,形成适合分析的格式,是分析前不可缺少的阶段。一般情况下,数据预处理所花费的时间占整个数据分析的60~80%的工作。预处理经常要做的工作包括:


  数据预处理

a)        数据清洗。去掉或合并重复的数据,删除无效数据,补齐缺失数据。

b)        数据转化。将原始的数据转化为新的数据格式,比如,将性别(男,女)转换为数值(1,0)等等。

c)        数据提取。将几个字段进行抽取、合并等形成新的字段,比如,从身份证中提取出性别,以及出生年月。

d)        数据计算。对数据进行基本的汇总、统计,比如,根据单价和数量,计算出总的消费金额。

2、  数据质量评估

a)        有效性评估。数据的取值、单位是否有效。

b)        可靠性评估。来源是否专业,可信度如何。

3、  合并多个表格

大多数分析方法都是基于一个数据集进行的,所以需要将众多的数据表格进行合并,形成一个数据集。

第四步:分析数据。

分析数据,就是用适当的分析方法和工具,对数据进行分析,提取有价值的信息。这一步包含如下内容:

1、  选择分析方法。基于业务问题,需要选择合适的分析方法,比如:分组分析、结构分析、趋势分析,不同的分析目的要采用不同的分析方法。

2、  选择分析模型。对于复杂的业务问题,有可能还需要重新构建分析模型,或者选择已有的数据分析模型,比如回归模型、聚类、决策树分类等等。

3、  选择合适工具。常用的分析工具有通用的Excel数据分析,也有较专业的数据分析工具SPSS和SAS,各种不同的工具,其适用范围及能够解决的问题也不同。选择合适的工具能够让你的分析工作更加有效。

第五步:数据呈现

数据呈现,或者叫做数据可视化。数据可视化,能够将数据很直观地表达出来,让阅读者能够一眼看出数据所要表达的业务逻辑,所谓一图胜千言。分析师需要掌握最基本的可视化技术:

1、  常用图形。包括柱状图、条件图、饼图、折线图、散点图、雷达图,等等。

2、  图表工具。最常用的图形工具,有Excel、水晶易表、SwiffChart等等。

掌握常用的图形工具,能够让你的分析结果更直观有效,更易理解,更容易找出数据中蕴含的业务规律和业务问题,从而能够辅助决策。​

第六步:撰写报告

分析报告,是整个数据分析过程的一个总结。一个好的分析报告,需要图文并茂,层次清晰,要有明确的分析结论,以及可行的建议和业务解决方案。

这也是从数据分析转换成业务策略最重要的一步。

 

所以,数据分析是一个完整的业务解决过程,发源于业务(业务问题),也回归于业务(业务策略)。

转自:http://blog.sina.com.cn/s/blog_a67b6b6b0102wkdp.html

数据分析思路漫谈----分析思路

转自:http://blog.sina.com.cn/s/blog_a67b6b6b0102wnyu.html

推荐 0
本文由 DDlucky 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册