民意调查背后的真相是什么？

发表: 2017-12-22 浏览: 1846

贝叶斯思维统计转行BI

有时候统计概率就像魔术一样，能够从少量数据中得出不可思议的强大结论。

例如，我们只需要对1000个美国人进行电话调查，就能去预测美国总统大选的得票数。

通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒检测，就能得出这家工厂的所有肉类产品是否安全的结论。

这些“一概而论”的强大能力，到底是从哪里来的？

这背后的秘密武器就是统计概率的第2大护法：中心极限定理。第1大护法我在《投资赚钱与概率》中有讲过就是：大数定律。

中心极限定理是许多统计活动的“动力源泉”，这些活动存在着一个共同的特点，那就是使用样本对总体进行估计。例如我们经常看到的民意调查就是这方面的经典案例。

1 什么是中心极限定律？

中心极限定理其实就是2句话：

1）样本的平均值约等于总体的平均值。
2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。

现在看了这2句话，你肯定会说：猴子，请说人话。

别担心，我将拆开这2句话来慢慢为你聊清楚什么是中心极限定理。

假设有一个群体，如我们之前提到的清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？

我会做这样4步：

第1步.随机抽取1个样本，求该样本的平均值。例如我们抽取了100名毕业于清华的人，然后对这些人的收入求平均值。

有一个经验是，样本大小必须达到30，中心极限定理才能保证成立。

第2步.我将第1步样本抽取的工作重复再三，不断地从毕业的人中随机抽取100个人，例如我抽取了5个样本，并计算出每个样本的平均值，那么5个样本，就会有5个平均值。

第3步.根据中心极限定理，这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点，有一些会稍低一点，只有极少数的样本平均值大大高于或低于群体平均值。

第4步.中心极限定理告诉我们，不论所研究的群体是怎样分布的，这些样本平均值会在总体平均值周围呈现一个正态分布。

2 动态演示中心极限定律

现在，我将介绍一个小程序来演示中心极限定理，通过多种方式，我们来熟悉这一重要知识。

这个小程序的演示地址在这里：http://onlinestatbook.com/stat_sim/sampling_dist/index.html

下面是这个程序生成1个样本的过程，没看懂没关系，反正下面我会详细和你聊。

打开程序后，你会发现下面这3个图。

第1个图是总体分布图，左边是一些统计指标，这里我们只要关注总体平均值就可以了，通过选择第1个图中红色箭头表示的地方来改变总体的分布，你可以选择总体是正态分布，或者非正态分布。

第2个统计图用来模拟产生一个样本的过程。每点击1次红色箭头标识的地方，就生成一个样本。这样通过重复点击这个按钮，你可以生成多个样本。

这个按钮下面的5,1千，1万数字表示，你点击该按钮，一次性帮你生成的样本数量。

为了看清楚每个样本产生的过程，建议一开始通过点击第2个图中红色箭头那里的按钮来自己生成多个样本。

第3个图是，样本均值分布图。左边第一个你可以选择统计指标，这里我们选择平均值就可以。

第2个N是表示样本的大小，即一个样本里面有多少个数据。这里可供我们选择的最大值是25。

现在我点击第2个图中红色箭头处的按钮，便产生了下面图片的样本均值图

这里的第1个图是产生一个样本的过程，第2个图是产生1万个样本的结果。我们可以发现：

1）样本平均值约等于总体平均值。

2）不管总体是什么分布，任意一个样本平均值都会围绕在总体平均值周围，并且呈正态分布。

这就是中心极限定理，就是这么2句话。

中心极限定理模拟2-生成1万个样本

下面图片也可以完美的解释中心极限定理。

这里第1行是3种不同分布类型的总体，用于比较不同类型下的样本平均值分布。

第2行每个样本大小是2，然后对每个样本求平均值，横轴表示每个样本的平均值，纵轴表示该平均值出现了多少次，最后平均值分布很不规则。

第3行每个样本大小是5，然后对每个样本求平均值，最后平均值分布有点接近于正态分布，但是总体3对应的第3行却不是正态分布。

第4行每个样本大小是30，然后对每个样本求平均值，最后平均值分布是正态分布。

这也验证了中心极限定律，不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。

3 中心极限定律有什么用？

现在你已经知道了中心极限定理的大体意思，下面图片我们通过几个案例来实践应用下。

根据《2017年中国家庭财富调查报告》调查数据显示，2016年我国家庭人均财富大约为16.9万元（169077元），其中，房产净值是家庭财富最重要的组成部分。在全国家庭的人均财富中，房产净值的占比为65.99%

现在假设我们随机抽样1000个中国家庭并询问他们的年收入。根据已知的这些信息，从中心极限定理出发，你能得出什么信息？

下面图片我们一起来用中心极限定理进行推理。

根据中心极限定理，我们可以得出的第1个结论是：用样本来估计总体。

任何一个样本的平均值将会约等于其所在总体的平均值。

例如你久居大城市，过年回老家，大街上遇到了邻居大妈，虽然20年没见你，邻居大妈还是一眼认出你了，这不是隔壁老王家的孩子嘛，长的真带劲。

这里，你爸妈就是总体，你就是你爸妈的样本，和你爸妈长的相似。

同样的，一个正确抽取的家庭样本应该能够反映中国所有家庭的情况，里面会包含收入高的公司高管，也会包括普通的员工，快递小哥、警察以及其他人，这些人出现的频率与他们在人口构成中的占比相关。

因此，我们能够推测，这个包含1000个中国家庭代表性样本的家庭财富的平均值约等于总体的平均值。

第2个结论：样本平均值呈正态分布

在这个例子中，样本平均值将会围绕着群体平均值（也就是16.9万元）形成一条正态分布曲线。记住，群体本身的分布形态并不重要，中国家庭收入的分布曲线并非正态分布，但样本平均值的分布曲线却是正态分布。

如果我们连续抽取100次包含1000个家庭的样本，并将它们的平均值的出现频率在坐标轴上标出，那么我们基本可以确定在总体平均值周围将会呈现正态分布。

取样次数越多，结果就越接近正态分布；而且样本大小越大，分布就越接近正态分布。

1.中心极限定理也就是这么两句话：

1）任何一个样本的平均值将会约等于其所在总体的平均值。
2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。

2.中心极限定理有什么用呢？

在没有办法得到总体全部数据的情况下，我们可以用样本来估计总体。如果我们掌握了某个正确抽取样本的平均值和标准差，就能对估计出总体的平均值和标准差。

举个例子，如果你是北京西城区的领导，想要对西城区里的各个学校进行教学质量考核。同时，你并不相信各个学校的的统考成绩，因此就有必要对每所学校进行抽样测试，也就是随机抽取100名学生参加一场类似统考的测验。

作为主管教育的领导，你觉得仅参考100名学生的成绩就对整所学校的教学质量做出判断是可行的吗？

答案是可行的。中心极限定理告诉我们，一个正确抽取的样本不会与其所代表的群体产生较大差异。也就是说，样本结果（随机抽取的100名学生的考试成绩）能够很好地体现整个群体的情况（某所学校全体学生的测试表现）。

当然，这也是民意测验的运行机制所在。通过一套完善的样本抽取方案所选取的1200名美国人能够在很大程度上告诉我们整个国家的人民此刻正在想什么。

2. 根据总体的平均值和标准差，判断某个样本是否属于总体

如果我们掌握了某个总体的具体信息，以及某个样本的数据，就能推理出该样本是否就是该群体的样本之一。

通过中心极限定理的正态分布，我们就能计算出某个样本属于总体的概率是多少。如果概率非常低，那么我们就能自信满满地说该样本不属于该群体。

这也是统计概率中假设检验的原理，假设检验我会在之后的课程中详细介绍。

推荐：知道这两个商业模式的人，都实现了财务自由

0 个评论

要回复文章请先登录或注册