均值:为什么会有均值?
背景:从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。
换句话说,把握问题核心才是当务之急
异常值:与其他数据格格不入的极高或极低的数值
当异常值将数据向左或向右“拉”时即产生偏斜数据
- 向右偏斜,偏大异常值扭曲了均值,将均值拉高了-拉向了右边
- 向左偏斜,异常值位于低端,把均值向左拉,在这种情况下,均值小于大部分值
- 对称数据,均值位于中央。不会有任何异常值将均值拉向任何一侧,中央位置两侧的数据形状大致相同
中位数的产生
当偏斜数据和异常值使均值产生误差时,我们就需要用其它方式表示典型值
众数必须存在于数据集中,众数是唯一能用于类别数据的平均线。
当均值和中位数相同时,我们如何考察这组数据(人选)呢?
一个办法是极差,也叫全距,它的局限性是无法反应最大值和最小值之间的详细情况,使用时很容易让人对基础数据产生误会
通过某种方法消除这些异常值的影响,这样才能最好的描述数据的分布形态,这个办法是 迷你距忽略异常值。不在量度整个数据集的全距,而是找出这个全距的一个部分--不包含异常值的部分。
四分位数:求四分位数的方法类似中位数,不同之处在于,需要求出将整批数据一分为四的几个数值,而不是求出将整批数据一分为二的一个数值
如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位书。
四分位数是将数据一分为四的数值,同理,百分位数是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,因此,第十百分位数就是 位于数据范围10%处的数值。
通常,第k百分位数就是位于数据范围k%处的数值
思考方法:从均值来看,你的食物是以最合适的温度烹饪的--均值显然没有体现事情的全部真相。你真正需要知道的是变异。
标准分是对不同环境下的相关数据进行比较的一种方法
标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值是0,标准差为1,这是一种可用于进行比较的通用分布。标准分将你的数据有效的转化为符合这个模型的数据,同时确保数据的基本形状不变
有时,统计师会说某个特定值在距离均值1个标准差的范围内,这其实只不过表示数值距离均值远近的另一种方法