深入浅出统计学之抽取样本

发表: 2016-09-15 浏览: 1483

统计学上总体指的是准备对齐进行测量研究或者分析的整个群体，可以是人得分，也可以是糖果--关键在于总体指的是所有对象。

普查指的是对总体进行研究或调查。

一个统计样本就是从总体中选取的一部分对象。通过选取样本，使其恰当的代表总体，从而得到代表总体的一个子集。

建立一个好样本的关键是尽量选择最符合总体的样本，如果样本具有代表性，则表示样本具有与总体十分相似的特性，进而意味的可以通过样本预测出总体具有那种特性

麻烦在于，你可能当局者迷--你可能会觉得总体会如此这般，而事实却并非如此。

样本的作用是用它预定总体情况。为了确保得到正确结果，需要明智的选择样本（同样的，我们选款测的数据也是部分的样本，它能给出这款实际的情况是怎样的，但是测款本质上还是属于调研摸清楚客户对此款的看法，受不受欢迎）

并非每一个样本都能做到十分客观--除非极其小心，否则，样本中会潜入这样那样的偏倚，使最终结果发生扭曲。你在无意间（也可能是有意间）带入样本的某种个人偏好就是偏倚（类似于自己觉得好看，把自己的观点强加给别人造成样本偏差这是实际中避免的，但是后期可以纠正，这时候很像贝叶斯纠正），这时，你的样本不再是从总体中进行随机选择的结果

如果一个样本无偏，则这个样本可以代表总体，是总体的客观反映

抽样空间列出总体中的所有独立单位，被作为样本的基础，但它并不是样本本身

偏倚的害处在于会导致对目标总体做出错误结论，进而导致做出错误决策（生活中我们常见到自己做决策或者结论，出现1-2个情况就匆忙的下决定，本质上就是选样本，不是随机）。例如，如果你仅仅抽取粉色口香糖球，对于全部粉色糖球来说，你的调查可能可能是准确的，但对于糖球整体来说却未必准确-不同颜色的糖球之间可能存在重大差异

简单随机抽样分：重复抽样和不重复抽样

选取简单随机样本的方法：抽签或者使用随机编号

如果你所处理的是一个大型抽样空间，抽签可能不太可行，于是可以采用另一种做法--随机编号生成器或者随机编号表。这时，你为抽样空间的每个成员编一个编号，再生成一组共n个随机编号，然后从该空间中取出编号等于所生成的随机编号的成员

简单随机抽样会有误差，这时候可以用分层抽样

系统抽样，是按照某种顺序列出总体名单，然后每k个单位进行一次调查，其中k为一个特定数字。如果在总体中存在某种循环模式，则样本将会有偏倚

随机选择对象就是简单随机抽样。主要有一点要小心：你的样本有可能无法代表总体（在淘宝，数据量过小可以解释为对样本不足，系统无法判断对整个总体怎样）

还会出现这样的情况-你可能觉得自己是在随机选择，但事实并非如此（这个好可怕哦）。例如，如果你在进行顾客满意度调查，但却任凭顾客自己决定是否回应调查，那么鉴于顾客只有得到充分鼓励才会给出回应，你最终得到的可能是有偏样本。最积极参与调查的顾客会是那些最满意或最不满意的顾客，那些感受不强烈的顾客发表意见的可能性较小，然而，可能正是这部分人构成了总体的主要部分

0 个评论

要回复文章请先登录或注册