数据分析师的前世今生

浏览: 1125


作者简介Introduction

挖数 腾讯数据产品经理 & 段子手

个人微信公号:washu66

数据分析师的前世


数据分析在维基百科上的定义是:

一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,总结结论并用于支撑决策。

这里有一个关键点:用于支撑决策

数据分析作为一门科学被正式地提出来,是1962年美国统计学家John W.Tukey的一篇文章《The Future of Data Analysis》

里边提到

数据分析以及其中的统计学知识,必须具有科学的特征而不是数学特征,数据分析本质上是一种经验科学。

这里又有一个关键点:经验科学

数据是对历史最浓缩的表达,如果没有大量的时间和精力去读历史文献或听前人讲述经验,阅读数据是效率最高的一种回溯历史的方法。

回溯历史的目的是为了更好地面向未来,如果我们在做每个决策前都能参考历史,那么就能避免大多数坑,能更省时间地达到目的。

因此数据分析非常重要,但在过去,数据分析仅作为一种职能存在于其他职位中,这些职位包括

  • 销售:通过数据分析做销售规划和预测;

  • 研发:用数据分析支撑各种论点;

  • 财务:财务分析、预测;

  • 金融:风控。

...

数据分析师的今生

数据分析师开始在国内被高频提起,并作为一种职业频繁出现在招聘网站,源自2013年左右一个热词的大范围传播,那个词叫大数据。

我记得第一次看到大数据源自2013年的一本书《大数据时代》,里边提到

随着数据量的增长,人类已经没必要知道为什么,我们不必非要知道现象背后的原因,而是让数据发声,我们只需要知道是什么就够了,相关关系比因果关系更重要。

这种数据量的增长有多大?

百度百科2012年的陈述:

在有了互联网后,每天光互联网产生的内容就可以刻满1.68亿张DVD,每天发出的邮件有2940亿封之多,相当于美国两年纸质信件的数量,发出的论坛帖子达200万个,相当于《时代》杂志770年文字总和,每天卖出的手机是37.8万台,高于全球每天出生的婴儿数。截止到2012年,数据量已经从TB跃升到PB,甚至ZB级别,整个人类文明所获得的数据,有90%是在过去2年产生。

数据的巨量增长以及对数据的重视引起了技术的变革,科技公司频频推出各种大数据框架

  • Hadoop:由谷歌提出的分布式系统框架,能在低廉硬件上存储海量数据,并能进行海量数据计算;

  • Storm:提供海量数据的实时计算;

  • Spark:加州大学伯克利提出的MapReduce通用并行框架,能比Hadoop更高效率地用于机器学习。

由这些数据框架衍生出来的各种职业开始形成一个生态:

数据分析师作为这个生态里边最靠近业务的一环,重要性不言而喻!没有数据分析师,数据的价值无从谈起,没有数据分析师,数据存储、ETL都是成本,无法产生利润,而数据分析师可以通过数据影响决策,最终影响业务并创造更多利润。

举2个栗子,来自《精益数据分析》:


Airbnb的增长曲线

全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。


于是,他们提出一种假设,即“附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请Airbnb提供的此项服务”。


他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了2-3倍的订单量。


2011年后期,Airbnb雇用了20名专业摄影师,以帮助平台上的房主拍摄房屋照片,几乎在同一时间段,Airbnb的订单量曲线有了一个陡峭的增长。

Facebook的博客小挂件

2008年,当安迪加入Facebook负责用户增长时,他并没有太多这方面的经验。最初六个月,他倍感焦虑,一度认为自己随时会被炒鱿鱼。


公司设下的目标是,必须在12个月内获得2亿的新增用户,安迪这样描述当时的心态“我们面对的都是前人从未遇到过的问题,为此你特意招来一批聪明人,然而他们同样不知道如何下手。


于是这伙人就这样被放在一个资源有限的环境里,大家每天满脑子想着究竟如何达成目标”。为了探明哪些地方需要改进,安迪发起了一个深度研究项目,整个团队围绕Facebook海量用户行为数据进行研究,试图找出驱使用户注册和活跃的因素。


幸运的是,他们最终找到了突破口。他们面向用户提供带有个人Facebook基本资料的博客小挂件,用户可以将小挂件的代码粘贴到自己的公共主页或博客上,对外展示炫耀。


结果,这个看似不起眼的小挂件每月为Facebook带来了数十亿次展示量、千万次点击量和百万级的注册量,并且这些新注册的用户都十分愿意在自己博客上贴出小挂件,形成了病毒式传播。


整套增长策略获得空前成功,2008年5月,Facebook的全球独立访客数首次超过竞争对手-Myspace,前者五月独立访客数达到1.239亿人,页面浏览量达到500.6亿次,后者独立访客数为1.146亿人,页面浏览量为450.4亿次。

在国内,非常有代表性的栗子是今日头条。

2010年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场,而仅仅2年后,异军突起的今日头条,手握“算法”这把屠龙刀,一举打破巨头垄断,给整个新闻分发市场带来剧烈震荡,腾讯和网易为了对抗头条,推出了类头条的天天快报和网易号,但因起步晚和算法不成熟,根本无力回天。

极光大数据报告显示,今日头条在2016年底日活用户超过老大腾讯并持续上升。

后来的故事大家都知道了,新闻APP第一的头条再接再厉推出多款短视频APP,抖音最终出围,踩着快手和微视,成为短视频APP全球第一。

今日头条能够成功主要基于以下数据场景

从用户的行为数据提取几百个高维特征,并经过一系列处理包括降维、相似计算、聚类/分类、LDA分析等,最终做到5秒计算出用户兴趣,10秒更新用户模型,从而做到对用户精准和快速的新闻推送。

要达成这个场景,少不了数据分析师的探索和各种计算。

网上搜一下,数据分析师有各种职能

设计数据埋点并规范数据上报;搭建业务的基础数据指标体系,开发并维护相应的数据报表

以上职能说明来自腾讯微信的数据分析师

分析产品测试数据,包括运营数据和游戏内玩法数据,评估产品的表现情况

来自阿里的游戏数据分析师

结合渠道信息和用户信息,协助搭建渠道用户画像系统,帮助优化产品和提升运营推广效率

来自头条

负责小米广告销售部与第三方数据公司的业务对接,例如行业分析报告、用户调研等

来自小米

数据分析的职能已经非常丰富了,薪资待遇也不亚于码农,以上职位待遇都在15-30K之间。

因此,只要基于数据的业务模式继续work,数据分析师这个职位就可以长期发展下去。

记得点 好看 让文章传播起来!

END


公众号后台回复关键字即可学习

回复 爬虫             爬虫三大案例实战  
回复 Python        1小时破冰入门

回复 数据挖掘      R语言入门及数据挖掘
回复 人工智能      三个月入门人工智能
回复 数据分析师   数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册