《七周成为数据分析师》第三周之Excel文本清洗函数

发表: 2018-02-26 浏览: 2758

数据分析

啦啦啦，第二周的笔记以后再补上，现在想先趁热打铁，把第三周Excel的实战笔记写上。

其实之前仔细《从职场新人到数据分析高手——Excel应该这样学》这本书啃了一遍，而且里面的实战项目也一一跟着做了，算是有excel数据分析基础的。

秦璐老师的《七周成为数据分析师》课程简单了讲了一些Excel使用较高频的函数，并系统地分为 文本清洗函数、关联匹配函数、逻辑运算函数、计算统计函数、时间序列函数 来做介绍。所以这里我也简单地记录下我跟着课程做的Excel函数实战。

首先是文本清洗函数，其实课程内容就是秦璐老师发的Excel实战篇文章 https://zhuanlan.zhihu.com/p/24084300中讲到的，我跟着自己实践了3遍。

现在贴上实战过程：

Clipboard Image.png

上表是招聘网站上约5000条的数据分析师职位数。

1.拿到数据时先观察数据，字段名称都是英文，看一下columns的含义：城市、公司全名、公司ID……数据基本涵盖了职位分析的所需。

2.首先看一下哪些字段数据可以去除。companyId和positionId是数据的唯一标示，类似该职位的身份证号，这次分析用不到关联vlookup，我们先隐藏。companyFullName和companyShortName则重复了，只需要留一个公司名称，companyFullName依旧隐藏。

注：尽量不删除数据，而是隐藏，保证原始数据的完整。

3.接下来进行数据清洗和转换。

数据有无缺失值

数据的缺失值很大程度上影响分析结果。

如果某一字段缺失数据较多（超过50%），分析过程中要考虑是否删除该字段，因为缺失过多就没有业务意义了。

Excel中可以通过选取该列，在屏幕的右下角查看计数，以此判别有无缺失。

该表共有6877条数据，companyLabelList、businessZones、positionLables都有缺失，但不多。不影响实际分析。

数据是否一致化

一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司，差别就在一个市字，主观上肯定会认为是同一家公司，但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。

数据是否有脏数据

脏数据是分析过程中很讨厌的环节。例如乱码，错位，重复值，未匹配数据，加密数据等。能影响到分析的都算脏数据，没有一致化也可以算。

我们看表格中有没有重复数据。

这里有一个快速窍门，使用Excel的删除重复项功能，快速定位是否有重复数据，还记得positionId么？因为它是唯一标示，如果重复了，就说明有重复的职位数据。看来不删除它是正确的。

下面对positionId列进行重复项删除操作：

Clipboard Image.png

数据标准结构

数据标准结构，就是将特殊结构的数据进行转换和规整。

表格中，companyLableList就是以数组形式保存。这会影响我们的分析。businessZones、positionAdvantage和positionLables也是同样问题，我们后续得将这类格式拆分开来。

Clipboard Image.png

薪水的话用了几K表示，但这是文本，并不能直接用于计算。而且是一个范围，后续得按照最高薪水和最低薪水拆成两列。

数据清洗

数据大概了解后，就可以进行数据清洗啦：

数据清洗可以新建Sheet，方便和原始数据区分开来。

先清洗薪水吧。将salary拆成最高薪水和最低薪水，这里我就用2种方法啦。

方法1：直接分列，以"-"为拆分符，得到两列数据，然后利用替换功能删除 k这个字符串。得到结果。

Clipboard Image.png

选中salary列，“数据”-“分列”功能，选择“下一步”，在分隔符号选择“其他”，填入“-”，

Clipboard Image.png

然后继续点击“下一步”，将目标区域选在两列空白列的首行，我选在了“$R$1,$S$1”，点击“完成”，奇迹诞生啦！

Clipboard Image.png

然后如果想去掉"k"的话，就直接替换掉就行啦！

方法2：利用文本查找的思想。先用 =FIND("k",P2,1)。查找第一个k（最低薪酬）出现的位置。

Clipboard Image.png

这里利用find函数得到的就是第一个k出现的位置，那我们要先得到底薪，就要用left函数，刚才我们已经用find函数定位找到“k"所在的位置，这里的left函数中的[num_chars]意思即为要找到几位，则可嵌入我们刚刚写的FIND("k",P2,1)。如果要把"k"去掉，这里的FIND("k",P2,1)可以再减1。

Clipboard Image.png