统计学上总体指的是准备对齐进行测量 研究或者分析的整个群体,可以是人 得分,也可以是糖果--关键在于总体指的是所有对象。
普查指的是对总体进行研究或调查。
一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当的代表总体,从而得到代表总体的一个子集。
建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味的可以通过样本预测出总体具有那种特性
麻烦在于,你可能当局者迷--你可能会觉得总体会如此这般,而事实却并非如此。
样本的作用是用它预定总体情况。为了确保得到正确结果,需要明智的选择样本(同样的,我们选款测的数据也是部分的样本,它能给出这款实际的情况是怎样的,但是测款本质上还是属于调研摸清楚客户对此款的看法,受不受欢迎)
并非每一个样本都能做到十分客观--除非极其小心,否则,样本 中会潜入这样那样的偏倚,使最终结果发生扭曲。你在无意间(也可能是有意间)带入样本的某种个人偏好就是偏倚(类似于自己觉得好看,把自己的观点强加给别人造成样本偏差这是实际中避免的,但是后期可以纠正,这时候很像贝叶斯纠正),这时,你的样本不再是从总体中进行随机选择的 结果
如果一个样本无偏,则这个样本可以代表总体,是总体的客观反映
抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身
偏倚的害处在于会导致对目标总体做出错误结论,进而导致做出错误决策(生活中我们常见到自己做决策或者结论,出现1-2个情况就匆忙的下决定,本质上就是选样本,不是随机)。例如,如果你仅仅抽取粉色口香糖球,对于全部粉色糖球来说,你的调查可能可能是准确的,但对于糖球整体来说却未必准确-不同颜色的糖球之间可能存在重大差异
简单随机抽样分:重复抽样和不重复抽样
选取简单随机样本的方法:抽签或者使用随机编号
如果你所处理的是一个大型抽样空间,抽签可能不太可行,于是可以采用另一种做法--随机编号生成器或者随机编号表。这时,你为抽样空间的每个成员编一个编号,再生成一组共n个随机编号,然后从该空间中取出编号等于所生成的随机编号的成员
简单随机抽样会有误差,这时候可以用分层抽样
系统抽样,是按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字。如果在总体中存在某种循环模式,则样本将会有偏倚
随机选择对象就是简单随机抽样。主要有一点要小心:你的样本有可能无法代表总体(在淘宝,数据量过小可以解释为对样本不足,系统无法判断对整个总体怎样)
还会出现这样的情况-你可能觉得自己是在随机选择,但事实并非如此(这个好可怕哦)。例如,如果 你在进行顾客满意度调查,但却任凭顾客自己决定是否回应调查,那么鉴于顾客只有得到充分鼓励才会给出回应,你最终得到的可能是有偏样本。最积极参与调查的顾客会是那些最满意或最不满意的顾客,那些感受不强烈的顾客发表意见的可能性较小,然而,可能正是这部分人构成了总体的主要部分