数据的可对比性

浏览: 1424

    数据没有可对比性就没有数据分析

在数据分析的六字箴言[对比、细分、溯源]中,对比占据着重要的地位,也是最简单的数据分析方法之一,可以说无对比不分析,但是没有可对比性的对比一定是耍流氓。

没有可对比性的对比无处不在,在《统计数字会撒谎》一书中提到一个案例,在美国和西班牙交战期间,美国海军的死亡率是9‰,而同时期纽约居民的死亡率是16‰,于是美国海军征兵海报口号就是:来参军吧,参军更安全!

杰克:柯北,你们发现这里面的问题吗?

柯北:我觉得问题在9‰和16‰这两个数据背后的人群没有可对比性,当兵的人群都是年轻力壮的,而纽约居民却是各式各样,自然死亡的、老弱病残而死的、交通事故致死的等。

杰克:对。星星,你有没有相对应的案例和我们分享一下?

星星:之前我正好看见一条新闻,题目就是《建筑工地民工月薪最高1.4万秒杀白领》。

杰克:这显然是标题党干的,用民工最高工资和白领对比这是没有对比性的。

可对比性的四个“一致”原则:

对象一致:前面征兵那个案例就是属于对比的对象不一致。

时间属性一致:A公司的销售员离职率是12%,B公司的销售员的离职率是4%,如果你据此就认为B公司的人员更稳定的话就大错特错了,你必须要再问一下他们的时间属性是否是一致的,是否都是月离职率或年离职率等。

定义和计算方法一致:这里我给你们俩举一个比较经典的关于“青年”定义的实例。我查阅了大量的资料,发现至少有多大六种对青年的定义。国家统计局“青年”的定义为15-34岁为青年人口(用于人口普查);共青团的相关定义为14-28岁为青年人口(这是《团章》中的规定);青联的相关规定为18-40岁为青年人口(见青联章程);国务院的规定为14-28周岁的青年放假半天;而联合国人口基金定义为14-25岁,世界卫生组织的标准又是14-44岁为青年人口。如果下次你们看见一个我国青年人占人口总数的**%的数据,一定要问一下它的青年定义是什么。

数据源一致:例如国家统计局2012年通报发布的城镇化率是52.57%,而按户籍人口计算,城镇的非农户人口与全国人口的比例却只有35%左右。后来统计局解释说52.57%的城镇化率口径是常住人口,即城镇常住人口占全部人口的比重。这就是数据源不一致产生的差异。

杰克:对比虽然是最简单的分析方法,但是使用之前一定要慎重,一定要考虑清楚,一定要坚守可对比性的原则。

推荐 0
本文由 黄成明 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册