人人都爱数据分析 Data analysis six fly(2)

浏览: 2110

image.png

【原创】【禁止转载 翻本必究】

第2章 数据分析师生涯

在线下数据分析分享会上,我听到不少同学对数据分析师如何发展感到困惑。有对职场发展方向的疑问,比如数据分析师在企业中具体是做什么样的工作,大家都在谈论的数据分析师到底该是什么样子,菜鸟如何从事数据分析工作,在大学的专业是非计算机和非数学系的能否从事数据分析工作等;也有对具体的数据分析师的技能要求未知的,例如,需要掌握哪些数据分析的应用工具,需不需要会写Java、C++开发语言,PPT如何才能写好等。

老实讲,这些也是我曾经刚入行时遇到的问题,可当时也想得很简单:我热爱数学,逻辑分析能力还不错。然后就一股脑地投入到数据分析的行业中,当时也没有数据分析师,而是网站分析师,每天的工作就是分析网站的流量、运营整体的情况。主要的日常工作包括:1)常规的流量运营日报、周报和月报;2)专题活动分析报告;3)数据监控平台的运维工作;4)跨部门的数据挖掘项目。

常规的数据分析报告主要是为了汇报给公司的高管和领导决策层,方便监控平台的运营动态和异常情况。

专题的活动分析报告主要是和运营团队一起来针对大的活动项目进行总结,对效果的好坏做一个分析。

数据监控平台的运维包括平台基础数据的搜集、加工处理还有存储这些,特别是伴随着网站用户量的爆炸式增长,网站的LOG日志也突然增加了服务器的存储负荷和计算性能的要求。

跨部门的数据挖掘项目更多是结合技术手段来通过大数据的分析方式,挖掘一些潜在的商业机会。

后来工作的几家公司工作内容都很类似,而伴随公司业务量的迅速增长,对数据团队的要求也越来越高。

1

2

2.1 国内外数据分析市场

数据分析这个行业在国外发达国家,不仅仅在企业有大量的从业人员,并且发展了很多专业的服务机构。其中美国有近万家从事数据分析服务的公司,年营业额达到几千亿美元。而像英国、日本这样国家也有几千家这样的数据分析服务公司。

像IBM、微软、Oracle、亚马逊这些为代表的互联网巨头公司,不断收购大数据分析相关的公司。此外,许多投资机构也看好数据分析的市场发展前景,纷纷投资数据分析领域,这也推动了数据分析行业的快速发展。

开源分析机构wikibon预计,未来5年的全球大数据企业的市场复合年增长率将达到58%,到2017年营收将达到500亿美元。另外IDC也是预测大数据技术和数据分析服务市场将有大幅的增长。这两家机构对数据分析行业的发展是相当的有信心。而像splunk作为第一家专注大数据领域的上市公司,凭借数据监测和数据分析服务业务,营业收入连续4年80%以上的高速增长,充分说明了数据分析市场的巨大空间。

在国外数据分析从业人数众多,特别是在美国,几乎所有大中型的企业都会有自己专业的数据分析人才,有数百万之多。数据分析高端人才的需求这几年仍在迅速扩张,数据分析人才的供给量远远赶不上需求量,缺口巨大。

麦肯锡公司曾经预测,美国到2018年深度数据分析人才缺口将达到14万~19万人,能够分析数据帮助公司获得经济效益的技术和管理人才有150万的缺口。

而在国内,拥有最多的人口数量,每天在互联网上产生的数据量也是巨大的。身在大数据时代,中国正在布局大数据产业,各地政府、通信公司、科研院校、IT企业都在摩拳擦掌,希望能够参与其中。像传统电信运营商在各地开设大数据中心、呼叫中心和运营中心。而阿里巴巴也设置了“首席数据官”的职务,管理数据共享平台和数据资源。

2.2 数据分析师发展

作为国内互联网公司的龙头企业BAT(百度、阿里、腾讯),在数据分析这块的职位规划和发展相对来说比较有一个统一的标准。以某集团的数据分析师定级为例,从助理数据分析师到数据分析师、再到资深数据分析师、数据分析专家、高级数据分析专家、资深数据分析专家,在业务的分析能力、执行和管理能力、胜任和影响力以及分析方法的要求上都会有不同。

像实习或者刚毕业的同学从助理数据分析师开始,对于数据分析方法上就要求能够掌握数据预处理、检验、清洗这些基础的方法,常用的统计检验方法、描述性统计分析、对比分析、简单的多元统计分析方法、以及数据库的知识等。专业背景最好是数理统计、计算机等理工背景。而在实习工作中,能够帮助师兄师姐一起完成一些数据分析的工作,能够在一定的指导下准确识别问题,完成分析思路的规划,对于需要分析的数据能够简单的查询,通过一些常见的数据分析方法得出自己的分析结论,如果能够有一些PPT、Excel报告的撰写基础再好不过,传递表述自己分析的结果。对于自己没有把握的分析结论,可以和其他的数据分析师一起探讨。在工作上能够做到自己合理的规划时间和安排。这是作为一个助理数据分析师的要求。

经过1、2年的磨炼之后,数据分析方法掌握的非常熟练、工具应用到如鱼得水、业务从前到后也都捋清楚之后,要想成长为数据分析师就并不像做助理数据分析师的那样配合工作,开始要独立完成一些数据分析的工作。在常见的数据分析方法的基础之上,还需要掌握一些复杂的如趋势分析、结构分析、关联分析等。在与业务方的沟通中能够帮助业务运营定位到问题的所在,能够从数据分析的角度提供完整的分析逻辑,迅速的通过数据搜集和分析得出自己的分析结论。推动自己的分析建议和结论,并被业务方采纳和实施。区别于助理数据分析师的最大一点就是自己能够跨部门的沟通协调合作。

当积累的经验已经形成了自己的一套分析方法论,跨部门的协调沟通都会很自然的时候,向着资深数据分析师发展就需要能够多挖掘一些数据分析项目。并且在团队协助上能够指导数据分析团队的成员,帮助他们去学会识别问题、分析问题、形成自己的分析总结和落地。作为自身,也要在一些数据挖掘上有所突破,能够应用回归、聚类、神经网络、决策树等模型解决问题。在数据分析项目上有自己的判断力和影响力,帮助部门跨部门寻找资源。

如果要继续发展到数据分析专家、高级数据分析专家和资深数据分析专家,那更多的是在行业影响、参与到公司的决策、完成影响大的复杂项目上需要努力。而这更多需要脚踏实地的坚持和在数据分析、业务上多思考和行动。

我们当初很多师弟师妹刚进入BAT,只是掌握一些统计和技术开发背景开始,通过参与到公司的数据平台和产品等项目中,开始熟悉公司底层数据库的数据存储位置和命名规范方式,到能够开始了解整个业务的冰山一角,和运营、产品讨论一些需求和方案,到总结自己的分析结论、撰写专业的分析报告供运营和产品等部门的决策参考。

而发展的路径从数据的跟踪→数据查询处理→数据分析→数据应用→数据的规划,特别是刚毕业踏入社会进入公司,对公司的架构、业务、产品、系统、数据都不了解的情况下,这时候就需要一个师兄师姐来带你入门,而刚开始能做的工作也很有限,通过一些系统和数据报表看到有限的数据,也没有数据处理的能力,甚至不理解数据的由来和含义。这也是一个过程,可以先按照师兄师姐的要求,把自己看到的数据拷贝进相应的要填写的报表中,尝试着先去完成一份日报、周报、月报这些常规的报表,再转给师兄师姐看看都有哪些问题。在尝试着完成报表的同时,你也在尝试着了解业务。如果这些完成之后,再去尝试着理解这些数据背后的含义,怎么去解读,哪些人关心。对这些数据有过一定的理解后,包括这些数据的定义,结合自己所学的统计学的方法,去做一些因子分析、关联分析,可以去通过数据找到问题的所在。像我们当初有一家商户的拉新能力很强,如果不是深入的分析很容易会误判为优质商家,也真是因为结合了社交关系、活跃度、LBS和设备号发现,大量的初次注册用户完成很小金额的交易,之间也都是亲戚朋友的关系。也正是通过数据分析才识别出这家商户是在刷单。而像数据应用,这个词很少被提到。但是应用数据被提的很多,分析了大量的数据,除了能找到问题以外,还有很多数据可以还原到产品中,为产品所用。典型的是在电子商务的网站中,用户的购买数据,查看数据和操作的记录,往往是为其推荐新商品的好起点,而数据应用师就是要通过自己的分析,给相应的产品人员一个应该推荐什么产品,购买的可能性会最大的一个结论。国内能做到这个级别的数据人员还真是少的可怜,甚至大部分人员连数据的视图都搞不定,而真正意义上的能数据应用师,可以用数据让一个产品变得更加地简单高效。数据规划师,不能说水平上比数据应用师高多少,而是另外一个让数据有价值的方向。往往在实际的应用中,数据都是有其生命周期的,用来分析、应用的数据也是,这点上,尤其是在互联网公司更加明显,一个版本的更新,可能导致之前的所有数据都一定程度的失效。数据规划师在一个产品设计之前,就已经分析到了,这个产品应该记录什么样的数据,这些数据能跟踪什么问题,哪些记录到的数据,应该可以用到数据中去,可以对产品产生什么样的价值。

而实际在职业发展过程中,也有很多半途转型做数据产品,也有做开发、算法、运营等,这些都不是太大的问题,重点是找到自己爱好研究和擅长的方向并坚持下去。如果在发现现有的工作已经停滞不前或者遇到瓶颈的时候,可以多尝试着和其他行业、其他岗位的同事伙伴交流请教,也许你会发现更多可以创新和发展的机会。目前数据分析这块的人才较少,大多数公司的数据部门都是扁平化的层级模式,大公司的话更多会根据应用领域的不同会划分成不同团队,而小公司可能会身兼数职。在数据分析这块领域,可以向着钻研业务和技术的方向发展,也可以向公司高级管理岗位发展。

2.3 选择大公司还是创业公司

在选择大公司还是创业公司的时候,这个问题在你毕业找工作的时候会遇到,在你选择跳槽换工作的时候会遇到,在你面临职业生涯规划的时候也会遇到。而很多同学都希望能够去大公司锻炼学习下大公司关于体系建立、流程管理、跨部门合作、技术储备等方面,同样的创业公司也提供了不少薪资更具竞争力、发挥自由度更大的诱惑条件。还有在选择offer的时候会考虑离家近与否、有没有户口指标、工作难易、加班多少等情况。所以说对待选择到底是去大公司还是创业公司,每个人都需要结合自己的选择趋向做出适合自己的抉择。

很多人在选择大公司的时候原因是因为可以去贴上各种光环,内心深处都有一个上名牌大学的梦想。的确大公司在资源整合上、技术基础上都具备先天的优势,如果是在毕业初收到大公司的offer,大多数情况我也会建议你去这样的大公司历练一下。相应的可以结交更多的能人,在这样的平台上可以看到更全面完整的产品流程全貌,审批流程和部门合作上更加的规范和严谨,而相应的你能学习到的和观察到的也是创业公司所不具备的。

但大公司也不是什么方面都会给你非常好的影响,公司规模很大导致很多问题反馈上可能比较滞后,而相应的能人很多也会影响到你的才能的展露,各种各样的同事会让之间的关系变得并非那么简单,还有各种公司规章制度也会限制你的活动时间和空间,所以在大公司待久了会让很多人感觉自己就是一颗螺丝钉,本来刚毕业的那股热情和冲劲都被消磨殆尽,看到无数自己的师弟师妹刚来公司如自己当年的那份激动,自己会无限的感慨。

而创业公司也一定就是那么美好吗?月薪2万!股权期权!工作时间自由!看到这些条件不少同学都心动了,难免会被这样的offer吸引住。而这样的offer条件,有很多是天花乱坠的文案效果,当然也有实打实的,具体就需要自己去实地考察以辨认真假。特别是毕业生在选择创业公司的时候一定要慎重,有一些行业因为政策和资本市场的关系导致泡沫很大,如果你是想学习技术沉淀几年那就不要选择这样的行业。同样的,在创业公司,很多情况下因为资源紧张,有很多时候需要身兼多职,每天会有大量的工作需要你来完成,虽然可能你的职位名称是数据分析师,但你也会兼职数据仓库的开发、数据质量的监控处理、数据分析和挖掘、数据可视化的建设等工作。

讲到这里,可能很多同学会被创业公司吓跑了,其实,从另一方面讲,创业公司会给你更多的锻炼机会和补偿。比较看好的一个创业公司铁血网,创始人蒋磊就是一个典型的大学生,20岁清华报送硕博连读,中途还是退学选择了创业。如今,铁血网稳居中国十大独立军事类网站榜首,铁血军品行也成为中国最大的军品类电子商务网站,年营收破亿,利润破千万。如果你对自己想做的事情已经非常清楚了,那选择创业会给你更多的机会发挥自己的想法和才干;如果你很憎恶那种稳定没有挑战、流程坑长、向往简单环境的,那选择创业公司会更适合你;如果你是一个寻找资源很强、综合素质很全面、不想只是在某一领域钻研的,去创业公司也会给你更多的回报,同时也要考虑相应的主管、公司团队、行业发展、薪资待遇这些问题,选择一家自己满意的创业公司会让你更快的成长。

在选择offer的时候,多分析分析自身的情况和诉求,咨询已经工作了几年的师兄师姐,分析不同行业的发展背景和公司状况,从而做出更具理性的选择。选择大公司那就多学习成熟的技术和流程管理,选择创业公司就多担任职责和提出自己的想法,在这些过程中提升和锻炼自己。

2.4 不同数据岗位的职能要求

在我们企业招聘过程中也会经常遇到一个问题,很多同学不知道自己到底适合做数据方面的哪个岗位,还有的同学自己工作了好几年才发现原来自己是在做数据研发的工作,这样的事情在我们的招聘环节遇到了很多。对自身的工作职能没有清楚的定位,明白工作过程中所需要发挥的擅长的地方,很容易迷失在不同工作的转变中,也不利于自身的职场发展。

我们知道在数据这块,从工作职能上有做研发、运营、算法、分析等,从数据架构上分为数据仓库、数据处理、数据挖掘和分析以及数据报表,而从数据层级上也分为数据观察员、数据工程师、数据分析师、算法工程师、数据研究员、数据架构师、数据科学家等。

从常见的数据岗位要求来看:

数据研发工程师

1) 从事数据仓库领域至少2年以上,熟悉数据仓库模型设计与ETL开发经验 ,掌握Kimball的维度建模设计方法,具备海量数据加工处理(ETL)相关经验

2) 掌握至少一种数据库开发技术:Oracle、Teradata、DB2、Mysql等,灵活运用SQL实现海量数据ETL加工处理

3) 熟悉Linux系统常规shell处理命令,灵活运用shell做的文本处理和系统操作

4) 有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关实践经验着优先,重点考察Hdfs、Mapreduce、Hive、Hbase

5) 熟练掌握一门或多门编程语言,并有大型项目建设经验者优先,重点考察Java、Python、Perl

6) 熟悉数据仓库领域知识和技能者优先,包括但不局限于:元数据管理、数据开发测试工具与方法、数据质量、主数据管理

7) 掌握实时流计算技术,有storm开发经验者优先

8) 良好的语言沟通与表达能力和自我驱动动力

数据架构师:

1) 计算机、数学、统计或相关专业硕士及以上学历,八年以上工作经验,具有大型系统的技术架构\应用架构\数据架构的的研发经验;

2) 精通各种大数据计框架,熟悉Spark/Hadoop/Map-Reduce/MPI分布式计算框架,特别是有Spark实战经验/海量数据处理经验者优先。

3) 精通并深入使用Java,熟悉常用的java类库以及框架,如 Velocity,Spring,Hibernate,iBatis,OSGI等,对SOA的模式有较深的理解,对虚拟机. 以及Linux下的开发环境有较深厚的开发经验;

4) 熟悉回归分析模型、关联规则挖掘、分类和聚类算法、协同过滤算法等数据统计模型和挖掘算法,了解完整的数据挖掘过程方法论,并有独立完整的建模实践经验优先考虑;

5)具有良好的产品sense,商业到技术映射能力,能够开发创新而实际的分析方法以解决复杂的商业问题;

6) 具有良好的沟通、团队协作、计划和创新的能力; 在J2EE业界,数据业界有一定的影响力优先;

7. 具有电子商务、金融行业、银行业、航空业经验背景的人优先。

数据分析师:

1) 三年以上互联网工作经验,熟悉并热衷于互联网产品尤其是移动端产品,对业务有敏锐的观察力和数据洞见;

2)两年以上互联网数据产品经验或相关项目管理经验者优先;

3)精通Excel,掌握R、SAS、SPSS任一数据分析工具,R优先;

4)掌握SQL、hadoop海量数据处理,有构建海量数据数据仓库经验优先;

5)对数字有敏锐的观察力,喜欢和数字打交道,严谨细致; 较强的分析能力,逻辑推理能力;

6)较强的书面及口头表达能力; 具有较强的自主学习能力,乐于接受挑战;

7)有责任心、具有团队合作精神,能承受一定的工作压力。

算法工程师:

1)本科以上学历,扎实的统计学、数据挖掘、机器学习理论基础,能够利用高等数学知识推演高维数学模型。

2)熟悉聚类、分类、回归、图模型等机器学习算法,对常见的核心算法理解透彻,有实际建模经验;

3)具有扎实的计算机操作系统、数据结构等编程基础,精通至少一门编程语言例如c++/python/R;

4)深入理解Map-Reduce模型,对Hadoop、Spark、Storm等大规模数据存储与运算平台有实践经验;

5)对于推荐系统和广告系统有实践经验者优先;

6)能够积极创新, 乐于面对挑战, 负责敬业;

7)优秀的团队合作精神;诚实, 勤奋, 严谨。

从这些岗位不难看出,数据这块岗位基本都需要有相应的技术背景。数据研发和架构侧重在数据库技术上的掌握,像Hadoop、spark、storm这些大规模的数据存储和运算平台,以及相应的脚本语言的掌握Python、perl、shell等,有Java的基础更佳。而数据算法挖掘和分析更偏重对分析方法、算法的掌握,熟悉聚类、分类、预测等算法,能够有团队合作的精神,对数据的应用有一些sense。

从之前和BAT数据从业者的交流,抑或是像Amazon、Twitter等分析朋友的交流,大部分的数据岗位也都是围绕这几块,数据质量和数据价值都是非常关键的点。围绕数据周边的衍生岗位也有数据运营、数据产品等,只要掌握数据分析挖掘、架构研发这些转型不是很大的问题。

2.5 如何快速成长为数据分析师

了解完数据相关的岗位之后,如何立志快速成长为数据分析师呢?作为数据分析刚入门的菜鸟该从哪里着手,包括到现在也有资深数据分析专家会问数据分析师最重要的是什么这样的问题。记得2011年的时候在北京工作的一个同事,当时她是统计学博士毕业,我和她聊博士阶段都在学习些什么,她跟我说她们在学校在做一个关于“函数变量”的课题,我当时就疑惑这个可以有什么应用吗?而她回答说也不知道,只是觉得是一个不错的概念。

后来见到和君商学院一期的朋友,他过去是在各个比较大的咨询公司呆过,深知从事这块行业的客户痛点是什么,自己想帮助他们解决什么样的问题,而我问道如何想在数据分析这条道路上规划时,至今都记得那很清楚的路线。在目前互联网、金融、电信这样信息量爆炸的时代,特别是关于客户信息和交易记录、行为数据等,这些海量的数据是否都有价值,是否可以利用帮助领导层来做提供参考的决策,像现在数据库技术、软件和硬件的飞速发展让这些分析海量数据都成为了可能。

对于数据分析这样的偏技术和业务结合的岗位,有一句话叫工欲善其事必先利其器,像spss/SAS/sql这样的软件、时间序列分析、决策树、关联聚类、趋势分析对比分析等常用的工具和分析方法论,以及像市场分析方法SWOT、4P、波士顿模型、5W2H等都是基础,如果这些都没有掌握很难用你的专业知识去分析数据、说服别人。所以第一步就是在高校和工作上,先把自己的基础数据分析知识等夯实。而这里的基础数据分析知识会在后面几章节重点介绍下,比如概率、统计、数据挖掘基础理论、运筹学等等。另外像数据分析师职位要求掌握的分析工具,比如excel、MATLAB、R、spss、sql等这些做到熟练,如果有时间可以多看看一些商业经济常识,往往这些方面关于商业的理解、市场的研究都有助于你对一个实际问题的全面思考,推荐像宏微观的经济学、营销理论、战略和风险控制等。这些在工作的过程中,给了我在分析问题、定位问题和解决实际问题提供了很大的帮助。

第二步就要开始实践了,去一家需要数据分析的实习公司或者数据分析比赛项目。像现在BAT、Facebook、百分点等很多互联网公司都有大量的数据分析实习机会,在自己还上学的阶段把握好时间上的安排,如果学校有课尽量保证不要影响到学校课程的进度,每周可以抽了2、3天去实习。在那样的互联网公司实习不仅可以帮助你快速了解实际工作中数据分析需要掌握哪些技能,也有利于你今后毕业正式工作。特别是在实习的过程中遇到的类似怎么做一份完整的分析报告、如何去做竞争对手的分析,这些都是实习过程中可以请教你的主管leader的。我记得我在实习的时候当时主管发给我很多这方面的资料,包括ppt、整理的文档和材料等,自己每天都会看到深夜,觉得大快朵颐。在这些实习中也可以尝试在不同的行业或者角色公司,比如在咨询公司可以多观察下不同行业之间的差别,作为乙方需要给甲方更专业的分析服务。在电商或者金融行业的甲方公司,去学习具体的业务都是什么样的模式,痛点问题都有哪些,希望能够通过数据分析解决哪些问题等。在这些实践过程中,多使用excel、ppt、sas这些工具,渐渐就会熟能生巧,花更少的时间在这些工具的应用上。还有多总结自己的分析结论和分析步骤,那样后面遇到类似的问题就轻车熟路了。我当时在一家电商公司刚开始每天的工作就是做excel报表,渐渐的对公司的运营数据都能倒背如流,后面主管就让想怎么通过VBA实现自动化的报表,这些为自己的数据分析工具打下了基础。再后来就是和一位统计学的女博士做会员营销的项目,通过sas工具的操作以及和会员营销团队的合作也学会了如何做好一个数据挖掘的项目,了解平台上的会员都可以从哪些角度去分析挖掘。在实习过程中一定要珍惜这些参与项目中的机会,多思考怎么去做好这个数据分析的项目,可以多请教请教这个行业的朋友或者到一些这方面的垂直的网站去搜集资料,做到不耻下问,当然自己要先花时间去思考。

在自己毕业的第一份工作选择上,可以结合自己的性格和发展方向,前面也提到了选择大公司还是创业公司,一般像数据分析公司现在应用场景更多在互联网公司和咨询公司,像埃森哲、IBM、AC尼尔森、麦肯锡、和君咨询都是不错的公司,如果进入互联网公司,国内首选BAT这样背景的公司可以提供很多数据分析的项目,对于自己刚毕业的3年内不推荐创业公司,相比较大公司来说,创业公司在数据量可以分析上没有太多可以利用的资源。通过第一份工作,把自己的知识打扎实,学会怎么在实际问题中使用数据分析,怎么和其他部门沟通,如何将自己的数据分析结论落地,积累一个行业的数据分析经验,常见遇到的数据分析的坑都有哪些,避免以后再在这些地方栽跟头,提高自己对一个行业的业务理解。

选择一个自己喜欢的行业,深入的去了解这个行业的发展史,并能够将数据分析应用到这个行业中去。像如果我去接触电商领域,就知道过去传统零售是什么模式,而电子商务是如何颠覆了过去传统的零售方式,在电子商务这个领域都有哪些比较杰出的公司,他们都有哪些核心的产品和技术,作为用户为什么喜欢通过电子商务购物。另外作为电子商务比传统零售的优势在哪里方面,特别是在数据搜集和处理分析上,怎么更好的去收集完整更多的用户信息,如果收集不到的该如何解决,是通过模型预测还是数据合作。在用户分析上跟踪用户、挖掘用户潜在价值、提升用户的忠诚度和活跃度。这些对于以后不管是职场发展还是个人创业,都有极大的益处。

给自己在数据分析领域这块定下目标,完成多少个完整的数据分析项目,做过几个不同业务背景的,用过多少个数据分析模型来解决实际问题,最后又有多少个数据分析结论得到业务方的肯定,多少个数据分析建议被采纳和落实到执行中去。而在数据分析过程中,一定要去了解什么是商业的本质,怎么才能做好业务,用户的痛点问题都有哪些,数据分析工具用的熟练程度如何,和别的数据分析师交流过程中有哪些是值得借鉴的思想,老板对于数据分析的重视程度以及有没有真正的应用到业务中去。

而对于要不要参加相关的数据分析培训或者考取数据分析证书,建议如果完全是零基础的人如果的确有这个需求可以去报名参加,相应的也会有老师来给你辅导怎么入门,需要学习哪些方面的知识。而对于自己本身就是统计学或者计算机专业的,自己可以先看看数据分析这块相关的书籍,再去找一些实习的工作机会锻炼,而并非只是去上一个培训班就觉得自己是数据分析师了。数据分析师水平的高低提现在对于分析方法论基础、业务的理解能力、团队的合作和协调、公司和行业的影响力上,千万不要只是停留在每天查询数据做数据的跟踪员,也不要只停留在对自己被分配的一小块工作上,多去其他部门和其他公司看看。

宋代禅宗大师青原行思提到,第一境界“看山是山,看水是水”,第二境界“看山不是山,看水不是水”,第三境界“看山还是山,看水还是水”。在数据分析这条道路上也是如此,透过数据看到现象的本质,辩证的看待数据的真伪,结合经验在数据分析这条道路上越走越远。

2.6 数据也会说谎

信奉数据,通过数据分析来解释是非常正确的事情,然而在我们数据分析的道路上是荆棘坎坷,有的时候数据也会说谎。如果不加注意,分析的结论和事实相悖论。

第一种 图表数据欺骗

为了让对数据不敏感的人能够直观的看到数据想表达传递的信息,人们发明了各种各样的漂亮图表,来增强文字和数据的说服力,通过这样的可视化也更容易让别人接受。

我们先看看下面的几个案例:

1. 图表拉伸

在制作统计图表的时候,一个常见的欺骗手段就是通过拉伸图表的方法。如果图表设置的比例效果不好,就会给人错觉。我们在《统计陷阱》里也可以看到不少这样的例子。在我们的平时工作做报表数据统计的过程中,常常会因为展示的拉伸,导致我们观察到的业绩效果以为很不错,而再观察具体的坐标刻度,发现真实的增长速度并不理想。这也是数据说谎中最常见的情况。

2. 坐标轴的特殊处理

看到上面坐标轴处理前的这样图表会发现1/11到1/17之间的差异很大,这也是真实情况所反映的。而我们通常为了展示上不给人太强烈的视觉刺激,会在坐标轴刻度上做一些处理,处理完之后的效果给人的第一印象1/11到1/17之间的差异很小,而不仔细观察纵坐标的话那就会造成理解上的错误。所以我们在观察图表的同时,也要仔细观察相应的刻度和文字说明。

第二种 数据统计上的欺骗

平时可以看到类似《2015年城镇人口年收入报告》这样的白皮书报告,然后看到相应的统计结果感觉自己又拖后腿被平均了。对于这样的现象一笑了之,但这真的是统计学上经常容易犯的错误。调查问卷你肯定知道,多半还做过。在统计上,问卷调查属于抽样调查。再大规模的抽样调查,都可能存在着意想不到的陷阱。不妨让我们穿越到 1936 年的美国,看一个被许多书本都引用过的实例吧。

1936 年美国总统大选在即,当时一本著名杂志 《文学文摘》 就在读者中做了一次问卷调查,断言共和党的兰登即将以 57% 对 43% 的绝对优势大胜民主党的罗斯福——这可是根据 240 万份调查问卷得到的结果。这么大规模的调查,如同宣告了兰登的胜利,可是,最后的结果却让人大跌眼镜:罗斯福以 62% 的支持率成功连任美国总统。出现了这个戏剧性的丑闻后,《文学文摘》业绩直接掉落为零,最后竟然倒闭了。对于《文学文摘》来说,他们的问题出在哪里呢?

现在看来,《文学文摘》的调查问卷虽然数量庞大,但是样本构成大有问题。首先,最可能看到这个调查的是这个杂志的常客,而他们参加调查的动机各有不同。另外,这个话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论可能代表了这些人群,却不能推广到全体。

其次,问卷的回收率只有 24% ,忽略那些没有被回收的问卷就等于是忽略了剩余 760 万人的意见。《文学文摘》杂志社还通过电话调查的方式对自己的读者进行了抽样,但在 1936 年,并不是每一个家庭都能装得起电话——那些订阅杂志、用电话的人家往往都是有钱的人,他们并不能代表全美国的选民意见。最终,这些看起来不算起眼的问题对他们的预测结果产生了巨大影响,事情的发展也走向了完全相反的方向。

如果我们现在做一个调查,看一看在最初恢复高考的三年中进入几所名牌大学就读的学生如今的年收入,你一定会得到一个高得吓人的数字。我敢如此肯定并不是我熟悉他们的社会成就,而是因为我了解调查的缺陷。可以想见,当年的那些大学生虽然有案可查,但能够准确联系调查的却只有一部分较为成功的人了。其中有一些人虽然联系上了,却不一定愿意接受调查。最后,还不能排除一些人受赞许倾向的影响,有意无意地提高报告自己的收入水平。最终,调查员只回收了那些成功人士的数据,而沉默的大多数却被“统计式”地忽视了。

1. 样本处理不当

我们在做海量用户统计的过程中,没办法做到全量统计,而在样本量和目标对象上就需要注意相应的问题,统计数据量具有样本代表性,有足够的数据量;统计样本和总体是同质;统计的样本不能掺杂个人因素,保证随机抽样原则。否则统计出来的结果就会和总体有比较大的差异。比如我们要做水质检验时就需要把不同地段的井水、河水都需要抽样检查,而不能只是抽查检验某一地段的河水情况。

2. 统计方法不对

特别是我们在统计时间序列走势网站UV的数据过程中,经常会发现在某一时间段的UV的走势特别高,然后计算这个季度的平均UV流量情况会发现比我们平时影响中的UV流量都偏高,而这样的情况就是因为那段时间运营在搞促销活动导致的出现了异常情况,对于这样的非正常流量我们要做剔除处理。

另外遇到了一个情况就是在统计2011年~2015年的活跃用户价值分布情况时,其中低价值用户:中等价值用户:高价值用户的比例是7:2:1,对于这样的比例分布我们分析师也觉得比较正常。所以当时也没有发现有什么问题就去对这样不同比例的用户进行了广告的投放营销。而投放的结果发现这部分低价值的用户效果异常的低,超乎了我们预期的结果。也是在一次交流过程中,运营同学说会不会这部分用户根本就不活跃。我们回头再去查这些低价值的用户特征,统计出的结果发现这部分低价值用户集中发生在注册时间为2012年、充值余额为5元的用户,找到当时这个业务部门的负责人了解到,当时为了刺激用户注册就给新用户免费赠送了5元代金券,而这部分用户注册完之后就离开了平台。事实上这部分用户在平台上的留存率几乎为0,根本没有潜在的用户价值。也是这样的情况我们反复总结,对于那些我们看似没问题的数据也要多去思考在统计上是否会还有其他的可能,避免作出错误的决策判断,对实际的业务造成巨量的损失。

另外对于自己不确定的影响因素,比如天气是否会影响外送销售、地理位置是否会决定售卖机的使用情况、年龄是否真的和是否购买保险有必然联系,这些情况我们都不能想当然的认为一定是这样的情况,对于不能通过数据直接解释的,要通过AB test、用户调查访问、不同场景对比的方式来解决。通过客观的数据反馈来还原真实的实际情况。

3. 统计逻辑错误

我们在查询数据的过程中也会遇到各种各样的情况,比如由于产品版本的升级导致数据埋点统计异常,数据处理环节存在的脏数据问题,在查询数据写SQL的过程中因为left outer join和inner join使用处理,数据重复统计,计算公式不当等问题。

在统计逻辑梳理过程中,1.和其他分析师讨论具体的统计逻辑,双方都检查下具体的代码逻辑,确保在数据查询逻辑上不要有漏洞;2.对统计出来的结果结合业务经验判断,一般出现异常情况的数据要么就是在查询逻辑上有问题,要么就是数据源本身就有问题,还有就是业务上有动作;3.保持一颗好奇心,去思考不同维度能够解释这样的数据关联,很多时候会有意外的收获。

第三种 分析师本身的意识判断

不管是金融股市的数据分析,还是电商互联网的用户数据分析,每个分析师得出的结论和观察的角度都会有自身知识局限的限制、数据质量问题的牵绊、以及各种各样的其他因素影响。有在分析过程中为了佐证自己的观点刻意去做假数据,证明自己的论断正确。也有在数据统计上就出现的逻辑错误,数据筛选上不恰当、事实数据的扭曲,这些都会严重误导阅读分析报告的人。而作为数据分析师也要站立在客观、中立的立场上,对自己的分析结论负责,给业务作出正确的辅助决策。

在做数据分析报告中要备注数据源、时间、统计逻辑、可能有哪些注意的点,对于那些第三方的数据报告辩证的看待,还有别人给的分析建议要结合具体的数据具体分析。不要盲目相信任何一个人的观点和结论,有句话叫“请相信我,我所说的每句话都是错的。”

2.7 BAT数据分析大师的经验

采访了不少BAT的数据分析大师,从传统零售行业转型到互联网公司,也有从咨询公司转型到互联网,也有直接从高校就进入BAT公司的。交流的比较多的也并非是excel如何玩转、PPT如何写的更漂亮、平时都用什么工具和算法,而是更多的对这个行业的探讨,业务模式上有哪些可以去改进的以及有哪些困难,还有整个IT行业的以后朝着数据化、智能化的方向发展。

对于数据分析,要保持一颗好奇心,积极主动去发现和挖掘隐藏在数据内部的真相。有篇关于介绍数据分析师不是算羊的,清楚的介绍了数据分析师并不应该是去统计羊群个数的人,通过对羊群性别的统计、生育比例分析、市场预测,去帮助养羊人最大经济化养羊效益。在数据分析师的脑子里,充满了无数个“为什么”“怎么做”,为什么是这样的结果,为什么不是预期的结果,怎么去解决这样的情况,问题出在哪里。这系列的分析,得出自己满意的结论,给出自己的合理建议。只有拥有一颗刨根问底的钻研精神,才会对数据保持相当的敏感,找出数据背后的真相。

数据分析需要有数据逻辑,更需要有商业感觉。比如,当一个具有商业意识的数据分析师发现,网站上婴儿车的需求增加了,那么他基本可以预测哪些关联产品的销量也会跟着上去。再比如,和传统卖场相似,网站上的产品起到的作用并不一样。有的产品是为了赚钱,有的产品是为了促销,有的产品是为了引流量,不同的产品在网站上摆放位置当然是不一样的。这也可以从数据中发现。一个商业敏感的数据分析师,需要懂得用什么数据去驱动公司实现目标。当下的数据分析师多是统计学出身,一堆数据放在那里,大家都擅长怎么算回归、怎么画函数。但是这批数学人才较缺乏商业意识,不知道这些数据对业务意味着什么,看不见一堆数据中谁和谁有关系,也就不知道该用什么逻辑分析,更无法充当老板的眼睛了。

想要成为数据分析师,你还要学习很多!

-END-

关注微信公众号:数据分析联盟

作者后言:吐槽数据内容质量的下滑,提升大数据核心魅力

推荐 1
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册