快速认知数据的详细步骤(四)

浏览: 1723

相关系数,一个在数据应用中极为普遍却极为容易用错的概念。有必要单独进行讨论。

利用相关系数理解数据之间的关系

传统的数据认知过程到“数据分布”这个环节就应该结束了。但我准备搬出自己的几个“土方法”,来让各位领略一下江湖偏方的效果。首先要说的就是相关系数。

相关系数的计算公式你大可不必在意,只需要理解:相关系数衡量了两个变量变动方向的统一程度,是一个-1到1的值;1代表完全正相关,-1代表完全负相关。别小看这个概念,目前许多分析师并没有真正理解。我们用下面的图中的信息来阐明相关系数的真正含义。

image.png

上图中我们设计了ABCD4个变量,以变量A为对比的基准,变量B的数字均是A的一半,说明两者的变动方向一致,即A下降的时候B也下降,A上升的时候B也上升,且变动幅度一致,即每次上升都增长200%,每次下降都下降50%,因此AB之间的相关系数是1,即完全正相关。A与C对比,两者变动方向完全相反,且相同方向变动的幅度完全相同,即A下降都是50%,C下降也是50%,只是不是同时发生,他们的相关系数为-1,即完全负相关。A与D对比,两者虽然数字差了100倍,但变动方向完全相同,变动幅度不同,两者的相关系数为0.77,说明两者有强的正相关,但不是完全正相关。从折线图的变化中,我们应该能够直观地理解,何谓相关系数为1,何谓相关系数-1,何谓相关系数0.77。

在Excel中,相关系数计算的实现有两种方式。第一种是通过“数据分析”模块中的相关系数计算功能,如下图所示。第二种实现方式是利用函数CORREL(),在函数的参数中输入两列数据,就能得出相关系数。相关系数的算法其实有皮尔逊相关系数和斯皮尔曼相关系数,Excel里默认采用皮尔逊相关系数。

image.png

理解相关系数的含义,我归纳为如下三句话:

  1. 相关系数衡量的是变动方向和变动的幅度,与两个数据序列的单位无关。

  2. 相关系数的数值并不能代表两个变量间的数量变化关系,A与D的相关系数为0.77,并不意味着A增长1个单位,D增长0.77个单位。

  3. 相关系数并不能表达因果关系。

讲完了相关系数的含义,那什么时候应用相关系数呢?应用太广泛了,归纳起来有如下几个应用场景:

  • 利用相关系数来发觉数据间隐藏的联系
    啤酒和尿布的例子相信大家都听过了,这就是典型的相关分析,也是典型的相关系数的应用。我在拿到数据集后,习惯于针对所有数值型的指标做一个相关系数矩阵,查看所有指标两两之间的相关系数。做这件事情最大的目的就是看看有没有让我惊喜的相关关系。只要能发现隐藏的相关关系,都能成为一个很好的研究项目,进而形成一个填补空白的业务决策。做从0到1的事情,其价值可是远远高于做从1到100的事情哦。

  • 利用相关系数来减少统计指标
    在针对某项业务设计指标体系时,我们经常会罗列出很多指标。但过多的指标会给后续的报告制作、信息解读和产品开发带来巨大的成本。那么相关系数就是删减指标的一种方式。如果发现某两个指标间的相关系数非常高,一般大于0.8,那么我们就两者择其一。

  • 利用相关系数来挑选回归建模的变量
    在建立多元回归模型前,我们需要解决把那些数据放入模型作为自变量。最常规的方式就是先计算所有字段与因变量的相关系数,把相关系数较高的放入模型。然后计算自变量间的相关系数。若自变量间的相关系数高,说明存在多重共线性,需要进行删减。

  • 利用相关系数来验证主观判断这点或许是现实业务中最有使用必要的。决策层或者管理层经常会根据自己的经验,主观地形成一些逻辑关系。最典型的表述方式就是“我认为这个数据会影响到那个数据”。到底有没有影响?快速地计算一个相关系数再做判断吧。相关系数的应用能够让决策者更冷静,更少地盲目拍脑袋。虽然相关系数不能表达因果关系,但有联系的两件事情,一定会在相关系数上有所反映

推荐 3
本文由 胡晨川 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

实用

要回复文章请先登录注册