聊聊数据的那些获取手段

浏览: 1423

作者介绍:

程虹升,唯品会大数据部支付业务数据分析师,数据分析和挖掘实战的践行者,“51CEO”公众号的运营者。

数据分析好比做菜,“巧妇难为无米之炊”,对于数据分析师而言,数据就是精神粮食。

数据获取的途径主要有3类:产品数据、人工采集、共享数据。前两者得到的数据的所有权是“自己的”,共享数据的所有权则属于“共享者”。

1.产品数据

image.png

产品,即可以记录数据的硬件设备或软件应用。

硬件设备

e.g. 扫描仪、摄像机、录音机、风向仪、温度计等

软件应用

e.g. 网站、PC软件、App等,这类数据最常见。无论是网页浏览、在线交易,还是社交互动、文章发布等,数据主要是以“虚拟”的方式存储在数据库(实际存储在磁盘阵列上)。

从底层上说,软件上呈现的数据都是通过各种传感器(硬件)将电信号转化为计算机编码,再编译成人类可以看懂的文字、符号(图形)。

注:“产品数据”更侧重于获取数据的“工具”,“人工采集”则更多强调“人”在数据获取中扮演的角色。

2.人工采集

image.png

如果说“产品数据”几乎不需要人工干预就能自动获得,“人工”采集数据时,则一般都有专业人员在现场,需要人员参与设计数据采集方案或者记录数据,分为4类:观察、访谈、问卷、实验

2.1 实地观察

用眼睛看、耳朵听,或者拍摄、录音记录等

优点

  • 自然条件下,可以观察对象真实反应;

  • 获取的信息全面;

缺点

  • 控制性差,观察的现象不一定在选定的时间或者场景出现,因而效率也低;

  • 只能看到现象,具体原因往往需要对观察对象进行深入研究才能发现;

  • 观察者可能引起偏差,观察者在现场可能改变被观察对象的行为,或者观察者自身有期望效应,而选择性地记录符合期望的行为记录;

e.g. 马路边上数路过的车辆数(如今有联网的车载GPS系统,可以很方便且准确地查询不同路段不同时间的车辆流量);

e.g. 选店铺位置时,实地考察交通、周边配套、人流量等;

2.2 线下访谈

即研究者有针对性地、系统化地对调研对象(人)进行深入访谈;

优点

  • 人性化、能获取深入的信息;

缺点

  • 成本高;

  • 对研究者要进行专业培训;

  • 访谈对象可能有信息掩饰(信任问题或者利益相关等);

e.g. HR对面试者提问,并进行打分;

e.g. 对产品用户(现有用户或潜在用户)进行访谈,了解用户的痛点和需求等;

2.3 问卷调研

设计问卷然后进行测试,调研形式可以是线下(街头、室内等),也可以线上(网站、软件、电话等)。

心理研究中常使用此方法,不过心理学上叫“量表”,设计和测试过程比问卷更加严谨、科学,当然,成本也更高。

优点

  • 可以大批量进行调研,采集成本低廉;

  • 题目一致,标准化程度高,相对观察、访谈两种方法,可以避免因为调研人员自身素质而产生偏差;

缺点

  • 回答问卷的环境不可控(可以邀请调研对象进行室内测试);

  • 调研对象可能随意作答,容易掺杂脏数据(尤其是问卷较长时);

  • 文字可能产生偏向性,e.g. 社会期望、利益相关等;

e.g. 调研用户需求、产品(服务)满意度等。

2.4 实验设计

通过设置对照组和实验组(可能不止一组),来发现改变研究对象的行为的变量(操作)。

优点

  • 科学严谨、针对性强;

  • 能有效发现影响研究对象行为的变量,甚至可以确定因果关系;

缺点

  • 实验条件的干预是非自然状态下的,推广到自然状态下的反应要谨慎;

  • 成本高,需要较大的人力物力投入;

e.g. 研究用户的浏览眼动轨迹、用户体验等;

e.g. 产品对比常用ABTest(在用户没有感知自己是实验对象时的自然反应);

3.共享数据

image.png

3.1 公开数据

  • 政府机构公开数据,e.g. 国家统计局提供的国计民生的各类数据,企业信用公示信息等;

  • 交易市场数据,e.g. 股票交易、投融资记录、行业报告等;

  • 单位或个人共享数据,e.g. 科研数据,百度指数等;

3.2 数据接口

  • 信息查询:e.g.查gps坐标信息、IP地址、手机归属地等,查违章、天气、交通信息等;

  • 身份验证:e.g.互联网金融业务中常见的实名、绑卡操作要调用相关机构的接口进行验证,征信业务中对接人行查征信报告以及相关机构查黑名单等;

  • 功能调用:e.g.文字识别、人脸识别、车牌识别等

注:可以参考《Data Source Handbook》

3.3 网络爬虫

网络爬虫的主要功能就是将散落在网络各个角落的数据集中起来,爬虫属于数据采集的灰色地带,请慎用。

检索信息常用的搜索引擎Google、百度等,其提供的网页链接内容绝大部分都来自于庞大的爬虫系统,除了网页索引外,爬虫也常用于舆情监控、商品比价、数据整合等。

小结

产品数据、人工采集、共享数据是常见的三种获取数据的途径,获取数据时要综合考虑3方面的因素:

  • 效度,是否和分析目标有关,筛选变量是什么?选择的样本的代表性如何?

  • 信度,数据是否稳定,是否会存在人为误差或者其他干扰因素?

  • 效率,人力物力成本如何?是否能较快获取数据(快速反馈)



推荐 0
本文由 每天进步一点点2015 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册