【42页PPT】我们研究了983名在数据科学领域的工作....

发表: 2017-05-15 浏览: 1534

大数据数据分析数据挖掘

概要

在第四版O’Reilly数据科学薪资调查中，我们研究了983名在数据科学领域的工作者，他们来自45个国家和美国45个州的不同行业。通过本次调查的64个问题，我们研究了数据科学家，分析员和工程师所使用的工具，工作内容，以及薪资水平。

主要发现包括：

Python和Spark成为了对薪酬贡献最高的两大工具
在编程从业者当中，编程时长越久薪资越高
SQL，Excel，R和Python是最常用的工具
会议参加越多的人，薪资越高
在相同的工作量下，女性薪资低于男性
各个国家和美国各州的GDP已经成为了预测不同地域薪资的标杆，但这不是最直接的预测指标，而是该模型的额外数据补充
在选择和使用工具方面，发现有两组最明显的差异，第一是以Excel，SQL和少量闭源工具为主的职员，另外是使用更多开源工具并投入更多时间编码的职员
R是个“跨界”语言，即使不怎么编程或使用开源工具的人也会使用R
编程工作者中又区分为两种，第一是主要使用Python的年轻数据科学家/分析师，第二是经验丰富的高级数据科学家/工程师，他们使用的工具更多而且薪资更高

可以参考一下在附录B完整的模型，可以依据个人情况去评估自己的工资（注意别忘了平方最后的结果）

简介

这四年中，我们在O’Reilly Media上收集到数据科学家，工程师及其他数据业内人士的相关信息，包括他们的核心技能，所使用的工具和薪资水平。我们发现很多的关键变量，例如工资中位数、核心技能以及工具间使用的相关性基本没有变化。在本年度分析中，我们收集了从2015年9月到2016年6月的983份数据业内人士的调查问卷。

该报告中，我们采用了不同方法对数据结果进行分析，包括着重对受访者和工具使用进行了分类。为了提高结论的准确度，我们优化了线性模型，在经济的地理变异上应用了平方根变化以及公开信息资源。同时，该研究提出了一些涉及到工作内容和薪资变化的新问题。

薪资

该调查中，研究对象的基本工资中位数是8.7万美元，比去年的9.1万美元低了不少，但这是由于样本中基本统计变量差异导致的。今年样本有了更多非美国的受访者和30岁及以下的年轻人。有五分之三的样本来自美国，他们的薪资中位数为10.6万美元。

什么是四分位距（IQR）

通过一系列问题，我们都会做出相应的图表和统计出受访者的工资中位数。虽然中位数可以用来比较来自不同组的工资，但却无法显示样本的薪资范围与区间变化，因此IQR也被划分在这次研究范围内。IQR包括了样本中间的50%薪资区间，但该范围不是置信区间，也不是以标准偏差为基础的。

举例来说，美国受访者的IQR是8万到13.8万美元之间，这代表四分之一的美国受访者工资是低于8万的，而有四分之一受访者的工资是高于13.8万美元。在美国东北和中西地区的对比中可以明显发现，东北区相对有更高的工资中位数（10.5万vs 9.8万）。但是东北地区薪资的第三分位数是13.3万美元，而中西地区为18.8万美元，这表示中西地区的薪资变化差距更大，而且在最高收入人群中，中西地区的薪资甚至是高于东北地区的。

薪资变化因素

我们收集了过去三年里薪资变化的数据。根据数据显示，接近一半受访者表示薪资有20%的变化，而有12%的受访者表示工资增加了一倍。我们尝试建立薪资变化和其他变量的模型，但R方只有0.221，所以这个模型并没有很大的建设性。在薪资回归模型上我们发现了影响薪资变化的因素，例如使用Spark/Unix系统，长时间的会议，长时间的编程和原始模型的建立，上述这些因素对薪资预测有正面影响。然而使用Excel，性别上的差异，在落伍公司工作则对薪资预测起到负面影响。同时，地理差异也相对影响着薪资变化，因为在一个经济更发达的地方，工资不太可能止步不前。

评估你的薪水

你可以利用模型去预估自己的薪水，在附录B就能参见完整的模型，记得加上适用自己的系数，然后算出所得结果的平方就是你最后预估的薪资（注意系数不是以美元为单位的）。某一特定系数对最终薪酬估算的影响也会依赖于其他系数，而且薪资越高，每个系数的影响就越大。举例来说，对初级数据科学家和高级架构师来说，他们在高收入国家薪资差异明显比较低收入国家的要大。

影响薪酬的因素：回归模型

在今年报告中，把我们2015年报告中原来的基本线性模型做了两处调整，包括：1）外部地理数据（美国各州和全国GDP）2）平方根变换。该模型需要把薪资影响因素的系数加起来，再把结果平方得出最后的预估薪资。而这两处的调整都有效提高了薪资预估的准确性。

该模型解释了薪资样本有四分之三的方差（R平方为0.747），大致有一半的方差是跟地理位置和工作经验有关。还有一些重要因素无法通过调查中得出，例如，我们不能评估出受访者的工作质量，因此部分方差无法得到合理解释也是很正常的。

地理因素影响

地理因素对薪资变化有着明显的影响，但由于样本数受限，该因素不能精确地从样本中体现出来。例如，如果一个国家的受访对象只有一到两个，就不能充分判断出该国的系数。因此，我们扩张到一个更大的范围，例如以亚洲，东欧作为系数，但在这些区域内的各个国家，他们之间也有一些经济差异，所以这也使模型的准确性也受到了一定影响。

为解决上述问题，我们采用了各个国家和美国各州公开的人均GDP。然而GDP本身不能直接转换为薪资，但却可以成为薪资差异的地域性标杆。在这里，我们使用的人均GDP是以国家和各州为单位的，因此该模型对于更小的地理单位会预估得不够到位。

在GDP纳入模型之前，我们在两处做了调整。其一，华盛顿特区人均GDP是18.1万美元，远高于邻州维吉尼亚州的5.7万美元和马里兰州的6万美元。许多维吉尼亚州和马里兰州的数据科学岗位都位于华盛顿州都会区内，但从调查数据中显示，在这三个地区数据科学家的平均薪资没有明显差异。所以用18.1万美元去代表华盛顿特区会高估他们薪资水平，所以华盛顿特区GDP就被调整为马里兰州的6万美元。

另一处对加利福尼亚州进行了调整。因为在所有薪资调查中发现，即使加利福尼亚州6.2万美元的人均GDP排名并不是很高，至少低于九个州以及瑞士，挪威两个国家，但工资中位数在美国各州和各个国家中是最高的。我们发现这种异常现象是由于旧金山湾区8到9万美元人均GDP所导致的。作为一个主要的科技中心，湾区在某种程度上拉高了加州的人均GDP，因此我们将加州的数据调整到7万美元。

性别因素

据调查显示，男性和女性的薪资中位数有1万美元的差距。在所有变量保持一致的情况下，例如一样的职能和技能，女性薪资往往比男性要低。

年龄，经验和行业因素

研究表明，经验和年龄是影响工资的两大因素。以年为单位来计算经验系数（+3.8）来说，每多一年经验，薪资就会平均涨2到2.5千美元。从年龄方面来看，最大的差异是20岁初到20岁末之间，其次是31至65岁和65岁以上的差距。同时我们也让受访者用1到5分去评估他们的谈判技巧，那些自我评估较高的人倾向有更高的薪资。在同一行业内和拥有相同技能的前提下，给自己打5分的数据科学家比打1分的工资多出1到1.5万美元。

最后，考虑到工作与生活之间的平衡，数据显示当工作超过60个小时，薪资就会呈下滑趋势。

如何分配时间：任务的重要性

我们通过四个不同类型问题去了解受访者的工作内容：

某项工作的参与度
职称
会议的时间
编程的时间

对于每项任务，受访者可以选择以下三个级别：不参与，少量参与，主要参与。

对工资影响最大（系数最大）的工作内容是原始模型研发。该模型中，主要参与研发的受访者薪资平均增加了7.4千美元。甚至少量参与的也有+4.4的系数。

职称的相关性

相比于具体工作内容，职称也许是个更好的工资预测因素，尽管职称本身也无法准确体现出工作内容。例如，在软件架构师中，只有70%的人主要参与了大型软件项目，所以职称并不代表具体工作内容。虽然这存在一定的差异，还是可以利用职称来预测薪资，因为“架构师”可能也是一种资历的象征。在这个模型中，“高层管理人员”的系数为+20.2，特别是在规模较小的公司高管，或是董事和副总裁。“中层管理人员”系数为+9.7，“商业问题分析并解决”的系数为+1.5/+ 6.7，和“公司外部谈判”的系数为+5.4。

会议所用的时间

据数据显示，在会议中花时间越多的人一般薪资越高。当然这没有必然的因果关系，而且在所有因素保持不变的情况下（比如工作内容，工具的使用，等），开始积极参加会议似乎也无法给薪资带来增涨。（当然，我们现阶段还未对此进行验证）

编程的工作角色

每星期花4-8个小时来编程的人工资中位数最高，而完全不编程的人工资中位数最低。在本次样本中只有8%的人完全不编程，和去年的20%比有了明显的下降，这说明了编程是数据科学工作者的大势所趋。

不同工具选择带来的影响

数据显示，样本中最常用的工具为Excel（69%）、SQL（69%）、R（57%）和 Python（54%）。与去年相比，Excel和R的使用率分别获得了10%和5%的提升，SQL及Python仅比去年有小幅度提升。

超过90% 的受访者表示工作中有一部分时间是编程，且80%的人表示用过至少Python, R, 和Java其中一种，但只有8％的受访者表示三者都用过。该模型中，把除操作系统以外最常用的工具作为单独系数，其中Python, JavaScript, 和Excel 的系数比较显著，分别为＋4.6，－2.2和－7.4。我们将比较不常用的工具归类，其中对薪资影响最大的5类集群，他们的系数可以根据每类中掌握的工具数量进行累加。（集群内系数的累加是有规定个数上限的，因为仅有小部分受访者累加超过该个数，而且即使超过也不代表会影响薪资水平。）拥有最高系数的集群是以Spark和Unix为核心，其中每项工具均有＋3.9系数。Spark使用率从去年的3%提高到了20%，而且样本显示高薪的受访者中使用Spark的更多。第二大集群包括了Tableau, Teradata, Netezza, Microstrategy, Aster Data, 和Jaspersoft，其系数均为+2.4。在去年的报告中，Tableau也有一个较大的正系数。另外三个较大的集群主要是由开源数据挖掘工具构成的。

数据分析工具选择的顺序

虽然这个模型可以基于使用工具的数量而估算出一个人的薪资水平，但这并不能推断出到底哪个工具是你一下个学习的目标。其实问题的关键在于该工具是否有助于完成你日常的工作。如果你不需要分析比电脑本地内存还大的数据量，那么即使用分布性系统的工具也无法提高你的薪资。

在以下工具排列中，学会第一个工具的人往往会把第二个设为下一个学习目标，而且这每一环节都存在着较大的薪酬差距。所以如果你已经学会序列中的第一个工具，不妨可以考虑学习第二个，以此类推。

工具与工作之间的关系：受访者的分类

对于数据业内人士并不能一概而论，尽管根据职称区分是很常见，但根据工具及工作内容加以区分会更为稳妥。基于每个受访者的工具使用和工作内容，他们都会被归在以下四类中的其中之一。这四类群体在样本中人数比例依次为29%，31%，23%和17%。下面分别描述了这四类群体。

种类1：使用少量工具的分析师和数据科学家，里面也包括了一些程序开发员。

种类2：会使用较多微软工具的分析师和工程师

种类3：以使用Python为主的编程分析师和数据科学家

种类4：以使用开源集群工具为主的数据工程师和架构师

接下来的报告会描述工具使用的比例，完整数据请参见附录A。

操作系统

在之前三篇数据科学薪资调查报告中，有两个比较明显差异的工具组，分别是开源工具（较少GUI类工具）和专有软件/微软大型开发软件。在开源集群的工具中，最常用的工具包括Linux，Python，Spark，Hadoop和Java。而在闭源集群的工具中，常用工具包括Windows, Excel, Visual Basic和MS SQL Server。同样这种明显的区分也出现在受访者的分类中，下表的操作系统的分类也能说明这一点。

通过下表中一系列任务体现出了1/2组及3/4组之间的区别，下表是主要参与到任务的受访者比例。

对于以上任务，3/4组数据比1/2组要高。

Python，Matplotlib，Scikit-Learn

在这个系列的工具中，Python及它两个热门程序包Matplotlib(可视化)和Scikit-Learnv (机器学习)把1/2组和3/4组也明显的区分开来：

问卷调查的受访者中，3/4组和1/2组相比较下，3/4更加趋向于用Python。对于两个程序包，也存在着类似的趋向：3/4组用上述程序包的受访者比1/2组的多出8-10倍。不过，第3组和第4组也存在有一定微小差距，其中第3组里用Python的人比较多，反观第4组中有相对更大比例的受访者表示不用Python和上述程序包。从而得知，相较于其他组，在第3组的人中对Python的使用率是最高的。对于表中其他的工具，3/4组的受访者比1/2组使用得更频繁，同样，其中第3组比第4组使用得更频繁。

从表上来看，第4组比第3组更倾向于开源工程师，但还是存在一定本质上的区别。而第3组受访者里有86%的人至少用过其中一种工具，虽然平均下来他们只用过2.2个。反观在第4组的受访人中平均每人会使用5.3个工具。而ETL和data management 在第4组中占有很大的比例，这说明了虽然3/4组都靠近数据科学，但第3组更注重于分析方面，而第4组比较倾向于工程和架构方面。至于另外两组，通过观察上述提到的所有工具可以看出第1组和第2组还是存在着明显的差异：第2组比第1组使用得更频繁些。对于下表大部分的工具来说，第1组的工具使用率居于第二位，但却远远落后于第2组。

但从整体来看第1组的工具使用数量是比较少的，平均低于8个，而另外三组平均分别是10，13，和21个。

不写代码的工作

当然了，对于某些工作来说，第2组的受访者会比其他三组接触得更频繁。

上表中前两种是作为分析师的基本工作，这在第3/4组中运用的也非常的普遍。关键的是，上表中所有工作内容都不需要写代码，然而第1组普遍偏低的百分比透露出了这组的特质：大部分被划分到这组的受访者并不是数据科学家，分析师，或者经理。这也包括一些只需要用少量数据工具的java程序员。而那些被划分进第一组的分析师和数据科学家倾向于用比较简单的工具组，另外第1组还包括了没有参与数据分析和没有用过数据工具的受访者。对于上述的部分工具，第1组的使用率跟第4组类似，特别是SQL Server。也就是说， 1/2组 vs 3/4组的局面将会打破，也许在不久后的未来，工具使用的情况不再倾向于1/2 vs 3/4，又或者说每组的差异会越来越小。

在第2组和第4组中，Tableau, Oracle, Teradata, 和Oracle BI的使用率比第1组和第3组要高。同样也发生在SQL，但是Excel和R是例外，因为它们在所有组中整体占比都很高。SQL和Excel是唯独两个在所有组中使用率达一半以上的工具。R在第一组的使用率没有那么高，但是在其他三组中的表现都差不多（67%-69%）。数据清洗和基本探索性分析在第2，第3和第4组占比中不分上下，但相对于第1组来说却低很多。这些“跨组”的工具/工作内容似乎与存在更大差异的工具/工作内容没有太大的相关性。

管理和商业战略类工作

也许更能显示第2组和第4组之间的联系是管理/商业战略型工作。这说明了2/4组的受访人在一定程度上是高级别职位。从工作经验方面来说，第1，2，和4组平均都在8到9年间，但第3组的受访人平均工龄偏小，只有4.4年。同样的发现也体现在了年龄差异上。虽然第3组群体普遍工龄低，但不代表他们工资低。有趣的是，这种反差也体现在了第1组：工龄不是最小的，但工资中位数却是最低的，只有7.2万美元。第3组工资中位数在8.4万美元，仍然比第2组的8.8万美元要低，第4组工资趋向比这两组高很多，中位数是11.2万美元。第4组的受访人使用工具的数量远比其他组的要高，而且大多数他们用的工具在回归模型中都是正系数。

总结

在本文中所用的回归模型描述了各个变量和薪资之间的关系，但并没有描述这些关系是如何形成的，或者它们是否有直接的联系。例如，一个人在经费充足的公司工作，该公司能够负担高薪资和昂贵的工具，但是这并不意味着员工的高薪是因为他所选择的这些工具导致的。

当然，这不仅仅是有关薪资的问题了。当某项工具成为某个行业的标准时，雇主也会开始寻求相应的人才，如果你不具备这项技能时，这对你能否找到满意的工作会产生负面影响，因此需要不断跟上主流去学习新的相关技能。如果你应聘的职位明确需要某项技能，并且拥有这项技术的是高收入人群，那么对雇主来说很难再用低薪找到一个可替代的人了。

然而，这些信息不只是应聘者需要关注，企业高层也更需要关注。因为高管不应该只考虑相关软件或工具的成本，同时也应该考虑雇佣的人力成本。我们希望这份报告能够在某种程度上帮助企业领导做出正确的决策。