七周成为数据分析师——第三周excel的使用

浏览: 3032

理解Excel的重要性(应用场景)

image.png

excel学习路径

image.png

excel的必知必会

  1. 保证新版本
  2. 培养好的数据表格习惯
  3. 主动性搜索
  4. 多联系

什么是函数

官方出品:函数的定义:给定一个数集A,假设其中的元素为x。现对A中的元素x施加对应法则f,记作f(x),得到另一数集B。假设B中的元素为y。则y与x之间的等量关系可以用y=f(x)表示。我们把这个关系式就叫函数关系式,简称函数。

函数概念含有三个要素:定义域A、值域C和对应法则f。其中核心是对应法则f,它是函数关系的本质特征。

文本清洗函数

补充:编码问题

1 bite = 两种可能性 用0/1存储

1 byte = 8 bite  一共有2**8中可能性

1 byte 可以存256个字符编码,存储方式ASCII,包括英文+数字+符号。

然鹅!不适合存储汉字,使用2 byte组合,称为GB2312;后拓展为GBK,包括了繁体字;接着考虑到少数名族的文字,变成了GB2312;最后~最后~~,发明了万民码Unicode。

举例说明:

image.png

常见文本清洗函数:

find 

left/right/mid

concatenate

replace

substitute

text

trim

len

练习:数据集:DataAnalyst

观察数据

1.首先观察数据,字段名称为英文,分别是城市、公司ID、公司名称、招聘岗位名称、工资等......

image.png

2. 隐藏(去除)一些暂时不需要的字段:

如companyid/positionid是唯一标志,可以通过vlookup函数进行一些关联分析,此处暂时不需要。companyfullname/compangshortname 实际是同一信息,可省略。

3. 处理缺失值

如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

通过选取该列,查看计数,直观判断是否存在缺失。

最终,部分字段数据缺失,但不影响分析,故忽略。

4. 数据是否一致化

一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。

5. 数据是否有脏数据

脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

这里有一个快速窍门,使用Excel的删除重复项功能,快速定位是否有重复数据,还记得positionId么?因为它是唯一标示,如果重复了,就说明有重复的职位数据。看来不删除它是正确的。

对positionId列进行重复项删除操作

image.png


6. 数据标准结构

数据标准结构,就是将特殊结构的数据进行转换和规整。

表格中,companyLableList就是以数组形式保存(JSON中的数组)

在一些情况下,如positionadvantage、salary等需要拆分处理。

清洗数据

(1)获取最高薪资和最低薪资

使用函数:find / right /left

具体操作:

法一:find寻找“-”的位置,使用left/right函数获取“**k”。

如图(原谅我mac如此简单粗暴了):

image.png

image.png

image.png

然后计算平均值等。。。

注:“&”链接符号,用法:

image.png

或者 concatenate

image.png

法二:使用mid函数

直接写了:topsalary = mid(salary,......)(无奈歇菜,还是按照公式生成器的操作来......)

image.png

最后检查一下是否有错误,通过筛选功能发现存在“#Value”值,

原因如下:很多HR将工资写成5K以上,这样就无法计算topSalar。

为了计算方便,将topSalary等于bottomSalary,虽然也有误差。

image.png

(2)分列操作

对companglabellist分列:companyLabelList是公司标签,诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。

image.png

image.png

(2)对positionAdvantage的分列:

这些内容均是自定义,没有特别大的分析价值。如果要分析,必须花费很长的时间在清洗过程。主要思路是把这些内容统一成几十个固定标签,主要利用Python分词和词典进行快速清洗。

image.png

暂且分析这么多啦,接下来讲解一个神器:数据透视表,可以说是数据分析必备技能啦。(当初参加数学建模时,数据透视表可是帮了大忙!)

数据透视表

(1)单独针对positionName用数据透视表。统计各名称出现的次数。

image.png

em.....出现次数为3次以下的职位,有约一千,都是各类特别称谓。所以换个思路,用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位。虽然依旧会有金融分析师这类非纯数据的岗位。

这里只是针对一个数据分析师岗位的统计,所以先确定关键字“数据分析”、“数据运营”、“分析师”,并使用if函数,如果满足上述三个关键字则返回“True”=1。

image.png

用find和数组函数结合,shift+ctrl+enter输入。就得到了多条件查找后的结果。

单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组。

然后再使用数据透视表,基本是很直观清洗了!

image.png

分析过程

分析过程有很多玩法。因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。

整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计。

image.png

似乎是公司越大,需要的数据分析师越多。

但这样的分析并不准确。因为这只是一个汇总数据,而不是比例数据,我们需要计算的是不同类型企业人均招聘数。

数据分析师岗位与学历的统计:

image.png


数据分析师岗位与工作年限的统计:

image.png

各城市不同工作年限的薪资水平:

image.png

注:因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算,降低误差。

薪资可以用更细的维度计算,比如学历、比如公司行业领域等。

另外数据分析师的薪资,可能包括奖金、年终奖、季度奖等隐形福利。部分企业会在positionAdvantage的内容上说明,可以用筛选过滤出这类关键词,作为横向对比。

以上只是大概了解。。。其实还有一堆函数:逻辑运算函数、计算统计函数、时间序列函数....

慢慢写。。。。excel的笔记写着有点累(哭唧唧~~)

推荐 1
本文由 安河桥的阿婆说 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

你好,分析用的数据能分享一下么?谢谢

要回复文章请先登录注册