数据工作岗位薪资水平影响因素研究

浏览: 1454

image.png

在这个数据和信息爆炸的时代,依靠一手漂亮的数据分析能力找到一份令人艳羡的数据科学相关的工作早已不是什么稀罕事。坊间早有传言说数据科学家是21世纪最性感的职业,与数据相关的岗位像数据分析、数据挖掘等工作已是众多年轻人追求的目标。这么多人将找工作的目光聚集在数据相关岗位上,这些岗位机会除了能使得你走在时代和技术发展的最前沿,更重要的是会给你提供远高于平均水平的高额薪资。

那么,数据科学相关工作的平均薪资水平由哪些因素决定的呢?在这个行业企业是更看重你的学历还是经验?在国内从事数据科学相关工作我们应该去哪些城市呢?学历较高但刚刚毕业的小张和学历不高但已是八年数据职场老手的老王,平均薪资会相差多少?本案例收集了国内主要城市数据科学相关工作岗位的招聘数据,尝试建立回归模型探究影响平均薪资的主要因素,并对具备不同职业特征的人群进行薪资预测。

数据介绍与说明

本案例所使用的数据来自某招聘网站发布的数据岗位招聘信息,总共包含1604条记录。为平均薪资水平为案例所要研究的因变量,岗位相关信息和公司相关信息等作为自变量。其中因变量为连续值,取值范围为3-60千元,自变量按照变量类型分为4类12个变量,均为多分类变量。

image.png

描述性分析

针对平均薪资水平与岗位所在城市、岗位类型、学历要求、经验要求、公司所属行业和发展阶段作分组箱线图的描述性统计。

image.png

image.png

image.png

根据上述的分组描述箱线图统计,本案例认为影响数据科学平均薪资水平的可能因素包括岗位类别、所在城市、学历要求、经验要求、公司所属行业和发展阶段等6个因素。


回归分析

本例中因变量为连续值,采用线性回归即可建立预测模型。根据放入模型的不同变量得到的回归系数显著与否,本例最终回归模型包括岗位类别、所在城市、学历要求和经验要求等4个自变量。回归结果如下表所示。

image.png

可以看到,在控制其他因素不变的情况下:

  • 对于职位类型这一变量,以数据运营为基准组,数据挖掘岗位平均薪资要比数据运营岗位高3610元。

  • 对于所在城市这一变量,以北京为基准组,杭州的平均薪资要比北京低3595.5元。

  • 对于学历这一变量,以本科为基准组,硕士的平均薪资要比本科高1218.4元。

  • 对于经验这一变量,以1年以下经验为基准组,经验1-3年的平均薪资要比1年以下高4736元。

image.png

模型预测

image.png

在本案例中,回归模型以及预测效果一般。模型中现有的影响因素只能解释平均薪资50.4%的方差。这可能是模型缺少一些重要的自变量导致的,比如说在职位描述和要求中有着一些像岗位所需掌握的软件与编程技能这样的变量并未放入模型中,这也与大量的文本挖掘较为困难有关。


往期精彩:

如何写出整洁规范的R代码?是时候讨论一下代码规范性了

R语言也能玩ps?magick包你值得拥有

【机器学习】决策树总结|ID3 C4.5/C5.0 CHAID CART与QUEST

R语言向量化运算:apply函数族用法心得

Python面向对象编程:数据封装、继承和多态

[译]为什么R语言是当今最值得学习的数据科学语言

Python高级特性:切片、迭代、列表生成式、生成器与迭代器


一个数据科学狂热者的学习历程

推荐 0
本文由 鲁伟 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册