你发现了吗?做数据分析如同跟闷骚谈恋爱(一)

浏览: 1557

闷骚特质定义

闷骚一般是指外表沉闷,内心却充满疯狂。闷骚不是贬义词,实际上可以作中性词理解数据是什么呢?无非是n行m列的数据堆砌(也会有文字)。没有表情,甚至没有血色,就好像下面这张扑克脸。是不是很闷。

image.png

赶紧逃?No,no,no,no,不要被它死气沉沉的外表吓到,如果它疯起来会让你为之着迷的。足以让你的多巴胺超标。

怎么才能让数据疯狂起来,让数据骚起来呢?

第一步,打探背景

    了解一个人,首先是看他的背景(之前的生活环境/教育环境)。了解背景后,对于这个人的习性有一定的初始的把握(不同的养育方式,造就了不同的眼界当然了这只是一方面)。对于数据来讲,就是看它的业务背景是什么(售前数据/售后数据)。售前数据告诉我们应该如何找到目标客户,扩大用户群体;售后数据告诉我们如何留住客户,延长客户生命周期及与产品接触的深度。了解这些就可以有的放矢地去撩它了(大致可以识别出这个人的兴趣点,数据可能用到的字段属性等)。

第二步,投石问路

    跟擅长外语的人要聊美剧/日剧;跟喜欢足球的人聊世界杯,跟喜欢篮球的人聊NBA。跟刚毕业的人聊职场.......原则呢,就是聊这个人领域内或者这个人即将涉足的领域。更关键的是,时刻关注反馈信息,及时调整撩拨策略。否则,会上演一部自编自导自演的独角戏。

image.png


对于数据来讲,就是数据的描述与探索(当然了这里略过了缺失值的过滤)。看分布,识趋势,查异常,找相关。

  • 分布是对数据有个基本的框架认识,同时也是对业务的进一步了解。(对汽车销售数据的分布可知,新疆销售的比较少。对应的业务可能是新疆的经销商比较少,或者销售政策对新疆支持力度较弱)。
  • 趋势一般与时间进行结合分析,可以看到随着时间的推移,销售量是增长还是下降,随着季节变化,还是随着月度变化等等 。(当然了,计量金融分析中,还要分析时间序列的平稳性)。
  • 异常是在分布或趋势的基础上识别出来的。趋势中突然变大或变小。分布中的离群值。对异常值的判断,要基于实际的业务背景与业务经验。  (异常值的产生可能是销售过程中的促销或断货,或数据收集时的疏忽等)
  • 相关更多地是分析属性变量与目标变量间的相关度,属性间的相关性分析更多是属于多重共线性的问题。也可以进行主成分分析。   

    第三步,路在何方

    通过第二步的投石问路,对这个人有更进步的了解,那么继续疯下去的路径是再挖掘兴趣。跟喜欢足球的人喜欢南美球员或是C罗,不喜欢德国队等等,喜欢篮球的人喜欢NBA,但不一定喜欢詹姆斯,喜欢的可能是科比抑或是罗斯。

    对数据特征的分析就必须要讲到一个波动性的问题,波动性是用方差来衡量,如果方差很小,说明此属性/特征是不具备区分度的,比如年龄,都是30岁左右的。年龄这个属性就没有再分析的必要。反之,方差越大,则属性的的区分度越好。方差可分为同方差与异方差。同方差是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定(总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差)。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。异方差的隐患有

  • 建立的模型中,参数估计量不一定有效
  • 无法正确估计标准误差和估计区间
  • 参数显著性检验失效
  • 预测的精确度降低

    所以再做经典回归(多元线性回顾)之前,我们会做异方差的检验。这里简单介绍两种方法:①  Goldfeld - Quandt 检验法:先将样本一分而二,对子样1和子样2分别作回归,然后利用两个子样的残差的方差之比构造检验统计量F进行异方差检验。这个检验统计量服从F分布。递增异方差,方差之比就会远远大于1;反之,同方差,方差之比趋近于1。注意:当模型中包含多个解释变量时,应对每个可能引起方差的解释变量都进行检验。②  White 检验法:不需要关于异方差的任何先验信息,只需要在大样本的情况下,将OLS估计后的残差平方对常数、解释变量、解释变量的平方及其交叉乘积等所构成一个辅助回归,在多元回归中,由于解释变量个数太多,可去掉辅助回归式中解释变量间的交叉项。利用辅助回归建立相应的检验统计量来判断异方差性。

其实,当你深入去认识去了解数据的时候,就会被它深深吸引,在互动的过程中,你并不知道是你在聊它还是它在撩你。这就是闷骚可爱之处。


推荐 1
本文由 结实 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册