深入浅出统计学之抽取样本

浏览: 1483

统计学上总体指的是准备对齐进行测量 研究或者分析的整个群体,可以是人  得分,也可以是糖果--关键在于总体指的是所有对象。

普查指的是对总体进行研究或调查。

一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当的代表总体,从而得到代表总体的一个子集。

建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味的可以通过样本预测出总体具有那种特性

麻烦在于,你可能当局者迷--你可能会觉得总体会如此这般,而事实却并非如此。

样本的作用是用它预定总体情况。为了确保得到正确结果,需要明智的选择样本(同样的,我们选款测的数据也是部分的样本,它能给出这款实际的情况是怎样的,但是测款本质上还是属于调研摸清楚客户对此款的看法,受不受欢迎)

并非每一个样本都能做到十分客观--除非极其小心,否则,样本 中会潜入这样那样的偏倚,使最终结果发生扭曲。你在无意间(也可能是有意间)带入样本的某种个人偏好就是偏倚(类似于自己觉得好看,把自己的观点强加给别人造成样本偏差这是实际中避免的,但是后期可以纠正,这时候很像贝叶斯纠正),这时,你的样本不再是从总体中进行随机选择的 结果

如果一个样本无偏,则这个样本可以代表总体,是总体的客观反映

抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身

偏倚的害处在于会导致对目标总体做出错误结论,进而导致做出错误决策(生活中我们常见到自己做决策或者结论,出现1-2个情况就匆忙的下决定,本质上就是选样本,不是随机)。例如,如果你仅仅抽取粉色口香糖球,对于全部粉色糖球来说,你的调查可能可能是准确的,但对于糖球整体来说却未必准确-不同颜色的糖球之间可能存在重大差异

简单随机抽样分:重复抽样和不重复抽样

选取简单随机样本的方法:抽签或者使用随机编号

如果你所处理的是一个大型抽样空间,抽签可能不太可行,于是可以采用另一种做法--随机编号生成器或者随机编号表。这时,你为抽样空间的每个成员编一个编号,再生成一组共n个随机编号,然后从该空间中取出编号等于所生成的随机编号的成员

简单随机抽样会有误差,这时候可以用分层抽样

系统抽样,是按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字。如果在总体中存在某种循环模式,则样本将会有偏倚

随机选择对象就是简单随机抽样。主要有一点要小心:你的样本有可能无法代表总体(在淘宝,数据量过小可以解释为对样本不足,系统无法判断对整个总体怎样)

还会出现这样的情况-你可能觉得自己是在随机选择,但事实并非如此(这个好可怕哦)。例如,如果 你在进行顾客满意度调查,但却任凭顾客自己决定是否回应调查,那么鉴于顾客只有得到充分鼓励才会给出回应,你最终得到的可能是有偏样本。最积极参与调查的顾客会是那些最满意或最不满意的顾客,那些感受不强烈的顾客发表意见的可能性较小,然而,可能正是这部分人构成了总体的主要部分

推荐 1
本文由 求知不才 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册