数据分析师的前世今生

浏览: 1149

作者:挖数  腾讯数据产品经理 & 段子手

个人微信公号:washu66


数据分析师的前世


数据分析在维基百科上的定义是:

一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,总结结论并用于支撑决策。

这里有一个关键点:用于支撑决策

数据分析作为一门科学被正式地提出来,是1962年美国统计学家John W.Tukey的一篇文章《The Future of Data Analysis》

里边提到

数据分析以及其中的统计学知识,必须具有科学的特征而不是数学特征,数据分析本质上是一种经验科学。

这里又有一个关键点:经验科学

数据是对历史最浓缩的表达,如果没有大量的时间和精力去读历史文献或听前人讲述经验,阅读数据是效率最高的一种回溯历史的方法。

回溯历史的目的是为了更好地面向未来,如果我们在做每个决策前都能参考历史,那么就能避免大多数坑,能更省时间地达到目的。

因此数据分析非常重要,但在过去,数据分析仅作为一种职能存在于其他职位中,这些职位包括

  • 销售:通过数据分析做销售规划和预测;

  • 研发:用数据分析支撑各种论点;

  • 财务:财务分析、预测;

  • 金融:风控。

...

数据分析师的今生

数据分析师开始在国内被高频提起,并作为一种职业频繁出现在招聘网站,源自2013年左右一个热词的大范围传播,那个词叫大数据。

我记得第一次看到大数据源自2013年的一本书《大数据时代》,里边提到

随着数据量的增长,人类已经没必要知道为什么,我们不必非要知道现象背后的原因,而是让数据发声,我们只需要知道是什么就够了,相关关系比因果关系更重要。

这种数据量的增长有多大?

百度百科2012年的陈述:

在有了互联网后,每天光互联网产生的内容就可以刻满1.68亿张DVD,每天发出的邮件有2940亿封之多,相当于美国两年纸质信件的数量,发出的论坛帖子达200万个,相当于《时代》杂志770年文字总和,每天卖出的手机是37.8万台,高于全球每天出生的婴儿数。截止到2012年,数据量已经从TB跃升到PB,甚至ZB级别,整个人类文明所获得的数据,有90%是在过去2年产生。

数据的巨量增长以及对数据的重视引起了技术的变革,科技公司频频推出各种大数据框架

  • Hadoop:由谷歌提出的分布式系统框架,能在低廉硬件上存储海量数据,并能进行海量数据计算;

  • Storm:提供海量数据的实时计算;

  • Spark:加州大学伯克利提出的MapReduce通用并行框架,能比Hadoop更高效率地用于机器学习。

由这些数据框架衍生出来的各种职业开始形成一个生态:

数据分析师作为这个生态里边最靠近业务的一环,重要性不言而喻!没有数据分析师,数据的价值无从谈起,没有数据分析师,数据存储、ETL都是成本,无法产生利润,而数据分析师可以通过数据影响决策,最终影响业务并创造更多利润。

举2个栗子,来自《精益数据分析》:


Airbnb的增长曲线

全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。


于是,他们提出一种假设,即“附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请Airbnb提供的此项服务”。


他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了2-3倍的订单量。


2011年后期,Airbnb雇用了20名专业摄影师,以帮助平台上的房主拍摄房屋照片,几乎在同一时间段,Airbnb的订单量曲线有了一个陡峭的增长。

Facebook的博客小挂件

2008年,当安迪加入Facebook负责用户增长时,他并没有太多这方面的经验。最初六个月,他倍感焦虑,一度认为自己随时会被炒鱿鱼。


公司设下的目标是,必须在12个月内获得2亿的新增用户,安迪这样描述当时的心态“我们面对的都是前人从未遇到过的问题,为此你特意招来一批聪明人,然而他们同样不知道如何下手。


于是这伙人就这样被放在一个资源有限的环境里,大家每天满脑子想着究竟如何达成目标”。为了探明哪些地方需要改进,安迪发起了一个深度研究项目,整个团队围绕Facebook海量用户行为数据进行研究,试图找出驱使用户注册和活跃的因素。


幸运的是,他们最终找到了突破口。他们面向用户提供带有个人Facebook基本资料的博客小挂件,用户可以将小挂件的代码粘贴到自己的公共主页或博客上,对外展示炫耀。


结果,这个看似不起眼的小挂件每月为Facebook带来了数十亿次展示量、千万次点击量和百万级的注册量,并且这些新注册的用户都十分愿意在自己博客上贴出小挂件,形成了病毒式传播。


整套增长策略获得空前成功,2008年5月,Facebook的全球独立访客数首次超过竞争对手-Myspace,前者五月独立访客数达到1.239亿人,页面浏览量达到500.6亿次,后者独立访客数为1.146亿人,页面浏览量为450.4亿次。

在国内,非常有代表性的栗子是今日头条。

2010年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场,而仅仅2年后,异军突起的今日头条,手握“算法”这把屠龙刀,一举打破巨头垄断,给整个新闻分发市场带来剧烈震荡,腾讯和网易为了对抗头条,推出了类头条的天天快报和网易号,但因起步晚和算法不成熟,根本无力回天。

极光大数据报告显示,今日头条在2016年底日活用户超过老大腾讯并持续上升。

后来的故事大家都知道了,新闻APP第一的头条再接再厉推出多款短视频APP,抖音最终出围,踩着快手和微视,成为短视频APP全球第一。

今日头条能够成功主要基于以下数据场景

从用户的行为数据提取几百个高维特征,并经过一系列处理包括降维、相似计算、聚类/分类、LDA分析等,最终做到5秒计算出用户兴趣,10秒更新用户模型,从而做到对用户精准和快速的新闻推送。

要达成这个场景,少不了数据分析师的探索和各种计算。

网上搜一下,数据分析师有各种职能

设计数据埋点并规范数据上报;搭建业务的基础数据指标体系,开发并维护相应的数据报表

以上职能说明来自腾讯微信的数据分析师

分析产品测试数据,包括运营数据和游戏内玩法数据,评估产品的表现情况

来自阿里的游戏数据分析师

结合渠道信息和用户信息,协助搭建渠道用户画像系统,帮助优化产品和提升运营推广效率

来自头条

负责小米广告销售部与第三方数据公司的业务对接,例如行业分析报告、用户调研等

来自小米

数据分析的职能已经非常丰富了,薪资待遇也不亚于码农,以上职位待遇都在15-30K之间。

因此,只要基于数据的业务模式继续work,数据分析师这个职位就可以长期发展下去。

记得点 好看 让文章传播起来!

END

作者系网易新闻·网易号“

各有态度”签约作者

公众号后台回复关键词学习

回复 免费                获取免费课程

回复 直播                获取系列直播课

回复 Python           1小时破冰入门Python

回复 人工智能         从零入门人工智能

回复 深度学习         手把手教你用Python深度学习

回复 机器学习         小白学数据挖掘与机器学习

回复 贝叶斯算法      贝叶斯与新闻分类实战

回复 数据分析师      数据分析师八大能力培养

回复 自然语言处理  自然语言处理之AI深度学习

推荐 0
本文由 人工智能爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册