作者介绍:
程虹升,唯品会大数据部支付业务数据分析师,数据分析和挖掘实战的践行者,“51CEO”公众号的运营者。
数据分析好比做菜,“巧妇难为无米之炊”,对于数据分析师而言,数据就是精神粮食。
数据获取的途径主要有3类:产品数据、人工采集、共享数据。前两者得到的数据的所有权是“自己的”,共享数据的所有权则属于“共享者”。
1.产品数据
产品,即可以记录数据的硬件设备或软件应用。
硬件设备
e.g. 扫描仪、摄像机、录音机、风向仪、温度计等
软件应用
e.g. 网站、PC软件、App等,这类数据最常见。无论是网页浏览、在线交易,还是社交互动、文章发布等,数据主要是以“虚拟”的方式存储在数据库(实际存储在磁盘阵列上)。
从底层上说,软件上呈现的数据都是通过各种传感器(硬件)将电信号转化为计算机编码,再编译成人类可以看懂的文字、符号(图形)。
注:“产品数据”更侧重于获取数据的“工具”,“人工采集”则更多强调“人”在数据获取中扮演的角色。
2.人工采集
如果说“产品数据”几乎不需要人工干预就能自动获得,“人工”采集数据时,则一般都有专业人员在现场,需要人员参与设计数据采集方案或者记录数据,分为4类:观察、访谈、问卷、实验。
2.1 实地观察
用眼睛看、耳朵听,或者拍摄、录音记录等
优点:
自然条件下,可以观察对象真实反应;
获取的信息全面;
缺点:
控制性差,观察的现象不一定在选定的时间或者场景出现,因而效率也低;
只能看到现象,具体原因往往需要对观察对象进行深入研究才能发现;
观察者可能引起偏差,观察者在现场可能改变被观察对象的行为,或者观察者自身有期望效应,而选择性地记录符合期望的行为记录;
e.g. 马路边上数路过的车辆数(如今有联网的车载GPS系统,可以很方便且准确地查询不同路段不同时间的车辆流量);
e.g. 选店铺位置时,实地考察交通、周边配套、人流量等;
2.2 线下访谈
即研究者有针对性地、系统化地对调研对象(人)进行深入访谈;
优点:
缺点:
e.g. HR对面试者提问,并进行打分;
e.g. 对产品用户(现有用户或潜在用户)进行访谈,了解用户的痛点和需求等;
2.3 问卷调研
设计问卷然后进行测试,调研形式可以是线下(街头、室内等),也可以线上(网站、软件、电话等)。
心理研究中常使用此方法,不过心理学上叫“量表”,设计和测试过程比问卷更加严谨、科学,当然,成本也更高。
优点:
缺点:
回答问卷的环境不可控(可以邀请调研对象进行室内测试);
调研对象可能随意作答,容易掺杂脏数据(尤其是问卷较长时);
文字可能产生偏向性,e.g. 社会期望、利益相关等;
e.g. 调研用户需求、产品(服务)满意度等。
2.4 实验设计
通过设置对照组和实验组(可能不止一组),来发现改变研究对象的行为的变量(操作)。
优点:
缺点:
e.g. 研究用户的浏览眼动轨迹、用户体验等;
e.g. 产品对比常用ABTest(在用户没有感知自己是实验对象时的自然反应);
3.共享数据
3.1 公开数据
政府机构公开数据,e.g. 国家统计局提供的国计民生的各类数据,企业信用公示信息等;
交易市场数据,e.g. 股票交易、投融资记录、行业报告等;
单位或个人共享数据,e.g. 科研数据,百度指数等;
3.2 数据接口
注:可以参考《Data Source Handbook》
3.3 网络爬虫
网络爬虫的主要功能就是将散落在网络各个角落的数据集中起来,爬虫属于数据采集的灰色地带,请慎用。
检索信息常用的搜索引擎Google、百度等,其提供的网页链接内容绝大部分都来自于庞大的爬虫系统,除了网页索引外,爬虫也常用于舆情监控、商品比价、数据整合等。
小结
产品数据、人工采集、共享数据是常见的三种获取数据的途径,获取数据时要综合考虑3方面的因素:
效度,是否和分析目标有关,筛选变量是什么?选择的样本的代表性如何?
信度,数据是否稳定,是否会存在人为误差或者其他干扰因素?
效率,人力物力成本如何?是否能较快获取数据(快速反馈)