数据分析师需要具备哪些能力? | 洞见

浏览: 1836

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

转自 | CrossHands

作者 | Ahong

要了解一个职业,通常有3种途径:

1. 到招聘网站上看岗位信息描述;

2. 请教行业资深人士;

3. 网上查文章(公众号、博客、论坛等)或者看书。

但为了避免“刻板印象”或者“职业想象”,了解一个职业尤其是自己可能要用来养家糊口的职业,最好的方式还是亲临现场亲自实践。

在笔者看来,数据分析师的工作内容主要如下:

1. 定义一个或多个关键指标来判断业务的好坏(指标通常和KPI或ROI有关);

2. 对指标进行操作性定义,也就是现有业务的哪些数据(或者数据表的字段)组合起来(可以理解为一个方程)可以计算出该指标;

3. 结合业务发现影响该指标的那些因素,如果业务指标是因变量y,那么影响因素就是多个自变量x(或者机器学习中的多个特征),并筛选出那些重要的影响因素(尤其是对y的贡献大且业务上可控的因素);

4. 在时间、人群、产品、营销等维度上细分,横向不同细类下以及纵向时间维度上影响因素x和业务指标y的关系(或者细类的分布和变化趋势等),基于业务上的考量对各细类分出优劣并给出解释,然后找到从劣到优的转移路径(也就是业务上可以操作的拉升KPI的点);

5. 给出具体的可执行的方案(符合SMART原则),推动落地实施(可能要和商务、产品、运营、技术等合作),最后评估方案对关键指标的影响效果以及ROI等方面的考量(实际上3,4,5是一个“循环”操作)。

至于这个过程中,怎么去采集数据、清洗数据、怎么计算、用什么软件、选择什么模型等都是方法问题,没有唯一的方法也没有最好的方法,整个过程通常以结果为导向,以解决业务问题为首要目标。

举个例子(仅供参考):

指定销售额(y)为核心指标,对其拆解,销售额 = 访客数*转化率*客单价


这里关注3个自变量x中的【转化率】


将用户分为新客和老客,发现访客中新客占比20%,但是转化率比商城整体低很多,进而发现新客中那部分“老带新”带来的新客(再次细分)成功率是高于新客整体的,商城新客统一配置有注册即送10元无门槛券,但“老带新”的新客额外配置有首单满199-50的优惠,而且,这类新客中199-50的券使用率远高于10元券,可能是10元券吸引力不够啊。


基于以上分析,可以考虑调整新客优惠力度或优惠方式,比如可以设置10、15、20的无门槛优惠券,以及满99-20、满199-50、满299-80六种优惠条件做A/B Test,除了优惠方式外,其他用户特征应尽可能保证随机性和分布一致,如果“满299-80”优惠下的新客首单转化率最高,那么后续可以考虑使用此种优惠。

需要数据分析师参与的场景,按业务开展的顺序可以分为如下3种:

1. 事前:参与产品、营销等前期规划,制定方案、预估方案效果,预测后续业务发展情况等;

e.g. 产品埋点的设计,业务关注哪些指标,主干转化流程是啥,要采集哪些数据,再映射到埋点上,以及最终定义埋点的类型、命名规则、记录数据值的规则等;

e.g. 给定10W营销费用,用于促首单,选哪些人群、用什么样的活动形式能让转化的新客数最大化;

2. 事中:主要是监控产品/运营数据(输出报表或者在线dashboard等),方案实施的过程中根据业务表现进行调整,有时候数据有异常分析师也会介入查找原因;

e.g. 前端对同一目标人群设计了ABC3种不同的广告方案(目的相同),刚开始每个广告均覆盖1/3的人群,假如单位时间内A方案中的转化率(点击/曝光)更高,那么另外两个组就调整广告规则,将大部分用户分流到A广告方案,到下午的时候发现单位时间内C方案的转化率更高,又会再次调整放量,实际上,多方案赛马过程中要考虑的颗粒度会更细,动态调整规则也更复杂。

3. 事后:复盘总结,专题分析,出数据报告,评估方案效果或者某业务操作(产品改版、运营活动、系统故障等)产生的交易影响,对业务上的数据波动归因等也是常见的数据分析工作;

e.g. KPI出现较大波动,需要分析主要影响因素有哪些,各自的影响量是多少,哪些影响因素是稳定的?哪些是可控的,如果可控,有啥可以改进的方案?

此外,问题解决的技术方案大致遵循“效度->信度->速度->广度”的演进方向:

1. 优先保证准确性(效度),解决业务问题是最基础的要求,不过解决问题通常不是直接达到100分,在资源有限的条件下,也许70分就OK,后面有资源再逐步迭代;

2. 其次关注稳定性(信度),验证和完善步骤1中的解决方案,以确保后续遇到类似的问题能使用先前的方法较好地解决;

3. 再利用技术手段来提升效率(速度),通常会涉及到机器学习和计算平台提供的规则化、自动化、批量化数据处理的能力;

4. 最后,把整个流程模块化、工具化(广度),让先前的模型或者分析方法能适用于其他业务场景(提升迁移性),推出可以供业务方直接使用的数据产品(即使他们不懂编程、不懂算法);

在迭代的过程中遵循SSC原则——Start 开始应用新的刚验证有效的方法,Stop 停止错误的、过时的、效率低的方法,Continue 继续沿用或改进先前验证过的有效的方法。


数据分析师需要的核心能力包括业务理解、方法理论、技术实现3个方面。

1 业务理解

行业理解:比如电商主营业务是卖货(C端)以及提供在线货架管理(B端),然后延伸服务(比如金融、自营品牌等),目前国内市场的top3是天猫、京东、唯品会,三家的业务模式又各有不同;

产品模式:卖给谁(用户人群有啥特点)?卖什么(主营产品或服务)?在哪卖(交易场景是啥)?这3点对应的是人、货、场;

关键指标:只有被量化以及对比适合的参照点才能知道业务的好坏,推荐《精益数据分析》这本书,涉及互联网的主要商业模式以及相应的关键指标解读;

2 方法理论

业务知识:产品的主干转化环节(枝干环节如何拆分)、如何监测用户数据(e.g.埋点)等,以及运营的主要形式及目的(用户运营重生命周期转化,内容运营重活跃,产品运营重产品转化,活动运营重交易或传播),运营相关的书籍,推荐黄有璨的《运营之光》以及李少加的《进化式运营》;

数学知识:概率统计、线性代数、常用的机器学习算法等专业知识都要知道的,理论上讲,这些知识知道的越清楚,使用得越熟练,工资就越高。不一定要做到能推导公式,但至少也要理解各类算法的大致原理、优缺点、使用前提及场景等;

通用能力:比如思维方法(e.g.数据分析常用思维)、沟通技巧(e.g.表达的框架)、项目管理等,关于通用能力这块,推荐看《12个工作的基本》和《商业模式新生代》,可以辅助构建自己的能力体系;

其他专业:跨专业的知识不仅有利于工作中理解用户、产品、营销等,也能让自己在生活中多多收益,推荐科特勒的《营销管理》,如果对心理学感兴趣的话,《心理学导论:思想与行为的认识之路》和《心理学与生活》是不错的入门读物,当然,跨专业的知识也可以直接和合作的业务方请教学习;

3 技术实现

流程:比如数据分析的常见的SEMMA、CRISP-DM流程,涉及到数据采集、清洗、整合、转化、建模、评估、上线等环节,每个环节还可以细分操作方法,比如数据采集可以分为网络爬虫、问卷调研、用户访谈、产品埋点等(详情见数据获取)。对应到具体的工作内容,可能就有更多细化的操作,比如需求处理流程、报表开发流程、模型上线流程等;

工具:分析软件(Excel/R/Python/SAS等)、可视化软件(PowerBI/Tableau等)、大数据平台(Hive/Spark等)、机器学习框架(Tensorflow/Mahout等)等,趁手的工具一定要熟练使用(详情可参见数据分析常用工具)

架构:使用工具来搭建整合数据分析流程的系统或者数据产品,这是比较高阶的能力,架构不仅要掌握全面且熟练的技术,还依赖于对过往工作经验的总结,从中提炼“模式”和“标准”,将标准化的某项技术或者分析思路用规则化的编程语言实现,最终形成一个适用于多个场景(迁移性)的产品。

数据分析的两个主要分支方向——分析和挖掘,不管是哪个方向,基本的数学知识和机器学习算法都属于必备技能:

分析偏业务

自上而下的“理论”或者业务驱动;

和产品、运营打交道比较多(工作输出对接主要就是这两类同事);

一般title是“数据分析师”、“数据产品经理”、“运营分析师”、“商业分析师”等;

通常要求会Excel/R/Python/SAS、Tableau/PowerBI等软件,会使用常见的算法,了解产品和运营的分析思路,能输出产品或运营优化方案并促进落地等;

挖掘偏技术

自下而上的数据驱动以发现更优模式;

通常对接数据平台或者对算法依赖非常重的业务(比如风控);

title里通常带有关键字“开发”、“研发”、“算法”、“挖掘”、“工程”、“大数据”等;

能力上通常要求能使用大数据依赖的操作系统(Linux/shell等)、大数据软件(Spark/Hadoop/Storm等)、开发语言(C/C++/Java/Scala等)、机器学习框架(Tensorflow/Mahout等),然后就是要熟悉数据结构、算法(数学算法和计算机算法)。

最后,分享几点工作上的小Tips:

接数据需求时,一定先和业务方确定目的或者业务价值,不仅有助于理解业务方向,也能挡掉一部分不靠谱的需求(话说我曾经态度和善地接了很多这种需求,这种需求,只有苦劳,没有功劳);

懂业务是分析师值钱的点之一,和业务方保持紧密联系,听听他们的思路和见解,这是很好的学习机会。如果只是“被动”处理需求,而很少“主动”和业务方沟通,对业务的理解可能就没那么深,可以参考车品觉老师在《决战大数据》中提到的“混、通、晒”;

摆正自己的工作角色,提防“乙方心态”,不能想着搞完需求就完事了,和业务方的合作不是一次性买卖,站在他们的角度想问题不仅能理解业务方向,还能理解数据分析解决的问题以及带来的价值(以免怀疑自己是在打酱油);

要有一定的“翻译”能力,如何对一个指标下操作性定义(量化),如何把业务语言转化为技术语言(再转化成计算机代码),或者把数据分析结论转化为业务方听得懂、用得着的信息;

沟通能力很重要,包含但不限于口头表述、PPT演示、结构化表达等,一方面沟通的时间成本很高(超哥说,时间是人类唯一宝贵的资源),另一方面沟通能力是外显的职业能力(大家看得到),建议阅读《金字塔原理》;

以上,是笔者对数据分析师这个职业的一点看法,真实的世界往往比能够记录下来的世界更复杂、更丰富,正如文章开头提到的,只有亲临现场、亲手去做才会知道属于自己的答案。

推荐 0
本文由 数智物语 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册