数据分析常用6种分析思路

发表: 2019-03-19 浏览: 1617

数据分析

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

转自 | CrossHands
作者 | Ahong

作为数据分析师，你是否常因为缺乏分析思路，而被以下问题影响到幸福感(甚至怀疑人生)？

1. 新上线某个产品，需要监控转化率效果，既要看总体情况，也要看细分渠道；

2. 策划营销活动，预算有限，要看看选择哪些目标用户群、采用哪种方案带来的销量更高(更能拉动KPI)；

3. KPI又出现较大波动，待会领导估计要问起来，赶紧分析数据找原因；

一个问题就是从天上随机掉落的食材，分析思维就是将这些奇形怪状的食材加工成“看得懂”的美味佳肴。既然要做菜，有哪些值得借鉴的“万金油”菜谱呢？本篇会为你慢慢道来。

01流程

完成一项任务，通常需要一系列操作，比如做菜，得先想好吃啥，然后买菜、洗菜、切菜、炒菜。

1.1行动步骤

行动步骤就是先确定起点、终点(目标)，然后将起点和终点的距离拆分成一个个小步骤，知道先做什么，后做什么。

注：图中小黑点表示该步骤下可以选择的行动方案

e.g. 常见的数据分析路径之一是SAS公司提出的SEMMA范式：

1. Sample，数据抽样，保证数据的效度和信度；

效度是指数据的准确性，也指选择的数据和分析目标及业务目标是吻合的；

信度是指数据的稳定性，要保证样本数据有代表性，且在一定周期内不能有过大的波动(否则模型不稳定)；

2. Explore，数据特征探索及预处理，e.g. 看数据的分布情况、对数据进行标准化等；

3. Modefy，明确问题、模型选择、方案调整；

4. Model，执行建模方案；

5. Assess，结果评估(准确性、稳定性、是否符合业务预期、效益如何)；

另一个常用的数据分析范式是CRISP-DM，分为6个步骤：

数据分析范式-CRISP-DM.png

1. 商业理解：确定业务目标，评估现有资源，确定分析目标，制定解决方案；

2. 数据理解：数据采集，探索分析，数据质量验证；

3. 数据准备：筛选数据，数据清洗，整合数据，变量衍生；

4. 建立模型：模型选择，检验设计，模型建立，结果评估；

5. 模型评估：分析结果和业务目标匹配度确认，检查1-4步的执行过程，确定下一步行动；

6. 结果部署：规划部署方案、监控和维护方案，输出项目报告，项目复盘；

e.g. 一个报表上线的基本步骤如下：

需求登记 --> 方案规划 --> 需求排期 --> 数据ETL--> 代码编写 --> 数据验证 --> 报表上线

1.2分步转化

要连续完成多个步骤，有的人“浅尝辄止”，有的人“半途而废”，有的人则是“善始善终”。

产品转化的每个步骤都会有用户流失，好比100个人参加有9个关卡的淘汰游戏，每个关卡会淘汰10个人，整个游戏最终会剩下10个获胜者，把这个游戏看作产品，那么该产品的全流程转化率就是10%(游戏获胜率)。

注：电商APP一般的转化漏斗

e.g. 常见的电商流程如下：

注册-->登录-->浏览商品-->加购物车-->支付-->售后

将上述步骤整理成鱼骨图，每个大步骤下还可以拆分更细的小步骤；

比如“支付环节”可以拆分为：

收货地址确认--> 选择优惠 --> 选择支付方式 --> 输入短信验证码-->返回支付结果(成功或失败)

e.g. 在用户运营理念中有这样一个转化公式：路人-->用户-->粉丝-->员工，先把围观的感兴趣的路人转化为用户，轻度用户是产品的使用者，中度用户是产品的“追随者”，重度用户则会主动参与产品的功能反馈和改进建议，在这个转化过程中用户的参与度逐步提高。

1.3闭环迭代

一般的闭环流程包括3部分：事前方案规划，事中执行监控，事后复盘总结。

e.g. 营销活动

事前：确定目标，选定用户，制定方案，确定检验标准等；

事中：实时数据监控(是否达到预期)，不同方案赛马，备用方案启用等；

事后：对整个流程复盘，总结经验，CSS归类(Continue做先前已验证的正确的事，Stop做错误的事，Start做新的正确的事)

常用的闭环迭代框架是PDCA，通过计划(P)、实施(D)、检查(C)、总结(A)4个步骤，循环迭代，螺旋上升。

另外还要注意，在使用流程化思维时，除了常见的正向思考，也要逆向思考。

02分类

互联网时代最核心的经营理念是深耕客群，通过差异化运营提升ARPU值(Average Revenue Per User，每用户平均收入)，而分类无疑是开展这项工作的重要前提。

主要有4种分类方法：

二分法，非此即彼，e.g. 网站新客、老客，贷款审批结果分为通过申请、拒绝申请等；

并列分类，多个分类(子集)构成一个全集，e.g. 用户地域可以按省份划分，按年龄可以将用户分为70后、80后、90后、00后等，女性用户群体可以分为时尚丽人、都市白领、家庭主妇等；

等级分类，e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠，城市等级——一线、二线、三线、四线；

矩阵象限，e.g. 波士顿矩阵，RFM象限

注：图片来自网络

分类的规则大致有两类：

按主体分类，

e.g. 按社会关系模型，用户角色可以是父母、配偶、子女、朋友等；

e.g. 按照群体划分，可以分为一般情况和特殊情况、二八原则等；

按属性分类，依据主体(比如用户)的属性进行类别划分。

e.g. 用户画像时可以考虑以下属性：

1. 社会属性：收入水平、学历、职业、婚姻情况等

2. 位置属性：居住地、工作地、从手机端还是PC端登录等

3. 生物属性：年龄、性别、种族等

4. 心理属性：品牌偏好、购买行为、优惠偏好等

03对比

“痛苦来自比较之中”(没有比较就没有伤害)，其实幸福也来自比较之中，痛苦还是幸福，取决于选择的参照点是高于还是低于你。

对比就是找一个参照点，来发现两个数据间的差异量Δ大小如何。

对比可以分为两类：横向对比、纵向对比。

3.1横向对比

和同类(竞品)比较，e.g. 对比不同品牌的女装的销售情况，不同销售渠道(地区)的交易情况；

实验对比，设置实验组和对比组，对比两组或多组之间的差异，以确定人为干预(实验、方案)的效应。

e.g. 比较不同的产品或运营方案的效果差异时，常采用AB Test，需要确保对比的两组或者多组在数量和结构上要具有可比性(e.g. 用户的来源、等级等需要匹配)；

和整体比较，e.g. 华东地区的销售情况和全国总体销售比较；

做组间比较时，一定要确保样本的可比性(无论是在数量级还是在群体结构上)，e.g. 对比两个时间段的交易情况，建议剔除掉大促和节假日(这些交易日的数据波动很大)。

有两类不易察觉的样本错误尤其要提防：

“辛普森悖论”，即两个样本单独得到的结论和样本合并后得到的结论相反。

e.g. 如下表所示，单独看APP端和PC端，新客的转化率都是低于老客的，但是，整体新客的转化率却高于老客。

注：以上数据仅作为说明概念使用，不代表真实场景

“幸存者偏差”，即样本已经被容易忽略的因素筛选过。

e.g. 问卷调查中，那些愿意填写问卷的用户本身就是对产品有高认可度；

e.g. 产品漏斗转化流程中，处在不同环节的用户一般不能进行对比

3.2纵向对比

横向是和其他对象比较，纵向则是和自己的历史数据对比。

常见的纵向对比有同比和环比，对比的周期根据实际情况可以按日、周、月、季、年等。

注：一个常用的多组对比柱状图

对比的时候，除了比较相对量，也要看绝对量，以合理地评估数据差异的大小。

e.g. 0.5%的波动是大还是小，需要找参考点，如果历史波动最高也就0.1%，那么这个波动就很大。

e.g. 公众号关注人数昨日环比增长20%(看着还不错)，实际上才增加4个人，截止前天也就20个人。

04关联

看数据指标不要只看一个“点”，还要看一条“线”上的前后连接的环节，进而从“面”或“体”的角度去看整个大环境中都有哪些因素相互作用。

对现象的分析可以参考简单的调节模型：

其中：X是自变量，Y是因变量，M是调节变量。

寻找关联关系时，不仅仅要找出对Y有直接影响的X(一个或者多个)，还要找出影响X对Y作用的调节因素M。

关联也可以分为同时关联和延时关联两类。

4.1同时关联

即多个因素(X)同时发生作用一起促成了现象(Y)的发生。

e.g. 电商网站销售的变化可能考虑的因素：

用户：用户结构是否发生变化，是否有新的注册渠道，新渠道导流进来的用户质量如何；

商品：品类结构是否有变化，e.g. 随着四季变化，服装类的种类也会发生变化；

产品：多少用户使用旧版本或者新版本，产品某个环节有没有改版，产品的策略(商品推荐策略等)是否有变化；

运营：前期的线上或者线下预热，商城的优惠力度，优惠涉及的人群等；

4.2延时关联

现象的产生可能存在延迟效应，要考虑当前现象(环节)的前置的“因”和后置的“果”。

e.g. 今天上线的营销方案可能在几天甚至几十天后才会有显著的效应，今天交易量上出现的波动也可能是因为一段时间前产品或者运营策略上有改动。

05层级

要有结构化、系统化的思维，对影响因素自上而下的拆解和自下而上的组合。

5.1自上而下的拆解

可以理解为“分级钻取”，如同金字塔结构一样，先从总体看到二级分支，然后再看更细的分支。

e.g. 支付成功率的影响，可以对新老客、订单来源、支付方式、银行通道一层一层拆解，细化各个分支对整体变化的贡献率；

e.g. 销售额 = 下单人数*客单价 (a)

从登录到下单是层层转化后的，所以

下单人数 = 访客人数*浏览转化率*购物车转化率*支付转化率 (b)

公式(b)代入公式(a)，得到：

销售额 = 访客人数*浏览转化率*购物车转化率*支付转化率*客单价

5.2自下而上的组合

就是将个体组成群体，将小的指标组合成一个综合指标。

e.g. 用户的标签分为基础标签和复合标签，基础标签就是单个用户属性来定义的(例如性别、婚否等)，复合标签则是考虑多个基础标签的组合(例如，某个典型的用户群体画像是：女性+单身+白领+一线城市)；

e.g. 规划用户标签时，先用头脑风暴想出一批指标，然后进行归类、筛选、组合；

e.g. 风控业务中累计坏账计提的计算，是将不同的逾期资金规定不同的风险计提比例，最后再把所有类别的风险计提资金汇总起来，作为公司所有贷出款项的风险计提资金，从而对公司贷款业务风险进行评估；

举个形象的例子，自上而下好比国家财政拨款，从中央到省会再到各市县区；自下而上则像是国家征税，就是从各市县区、各企业层层汇总，直到报送国库。

06优化

分析的最终目标无非两种：寻找解决方案，寻找更好的解决方案。第一步是保证数据的准确性和稳定性，第二步就是优化，提高准确性、提高效率和效益。

优化包含两部分的内容：缩小当前和目标的差距，直到达成并超越目标；在成本或者预算固定的前提下，使收益最大化。

6.1缩小当前和目标的差距

e.g. 全公司各部门各业务线的同事们都在追逐和超越KPI的路上；

e.g. 机器学习建模时，尝试多种方案，调试各种参数，使模型的精确度逐渐提高

6.2成本固定，最大化收益

e.g. 对于信用贷款产品而言，如果把“最安全”放在首位，那么极端的方式就是不给任何人发放贷款，这样就不会出现坏账了。正确的信贷模型思维是将坏账控制在业务上可以接受的范围内，并使利息覆盖坏账，进而最大化收益。

任何商业模式都是追逐利益的，首要目标是收益最大化，参考如下公式：

利润 = 收入 - 投入成本 - 风险损失

优化的过程就是寻找利润最大化的过程。

小结：

以上总结了常见的6种数据分析思路，涉及具体的业务场景还要结合业务特点适当变通。精通方法，深入业务，勤于实践，多加总结，最终就能踏上描述-->解释-->预测-->控制，步步高升的数据分析师精进之路。

0 个评论

要回复文章请先登录或注册