深入浅出统计学之量度(1)

浏览: 1852

均值:为什么会有均值?

背景:从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。

换句话说,把握问题核心才是当务之急

异常值:与其他数据格格不入的极高或极低的数值

当异常值将数据向左或向右“拉”时即产生偏斜数据

  • 向右偏斜,偏大异常值扭曲了均值,将均值拉高了-拉向了右边
  • 向左偏斜,异常值位于低端,把均值向左拉,在这种情况下,均值小于大部分值
  • 对称数据,均值位于中央。不会有任何异常值将均值拉向任何一侧,中央位置两侧的数据形状大致相同

中位数的产生

当偏斜数据和异常值使均值产生误差时,我们就需要用其它方式表示典型值

众数必须存在于数据集中,众数是唯一能用于类别数据的平均线。

当均值和中位数相同时,我们如何考察这组数据(人选)呢?

一个办法是极差,也叫全距,它的局限性是无法反应最大值和最小值之间的详细情况,使用时很容易让人对基础数据产生误会

通过某种方法消除这些异常值的影响,这样才能最好的描述数据的分布形态,这个办法是 迷你距忽略异常值。不在量度整个数据集的全距,而是找出这个全距的一个部分--不包含异常值的部分。

四分位数:求四分位数的方法类似中位数,不同之处在于,需要求出将整批数据一分为四的几个数值,而不是求出将整批数据一分为二的一个数值

如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位书。

四分位数是将数据一分为四的数值,同理,百分位数是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,因此,第十百分位数就是 位于数据范围10%处的数值。

通常,第k百分位数就是位于数据范围k%处的数值


思考方法:从均值来看,你的食物是以最合适的温度烹饪的--均值显然没有体现事情的全部真相。你真正需要知道的是变异。

标准分是对不同环境下的相关数据进行比较的一种方法

标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值是0,标准差为1,这是一种可用于进行比较的通用分布。标准分将你的数据有效的转化为符合这个模型的数据,同时确保数据的基本形状不变

有时,统计师会说某个特定值在距离均值1个标准差的范围内,这其实只不过表示数值距离均值远近的另一种方法

推荐 2
本文由 求知不才 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册