序言:
本节将给出几种描述统计学的数值方法,提供了汇总数据的其它可选方法。
相关概念:
样本统计量:如果数据来自样本,计算的度量 称为样本统计量。
总体参数:如果数据来自总体,计算的度量称为总体参数。
点估计量:在统计推断中,样本统计量被称为是相应总体参数的点估计量。
- 样本的度量
平均数:提供了数据中心位置的度量。如数据来自样本,平均数用表示,如来自总体,则平均数用希腊字母来表示。
公式:=/n
中位数:将数据按升序(从小到大的顺序)排列.
(1)对奇数个观测值,中位数是中间的数值
(2)对偶数个观测值,中位数是中间两个数值的平均值。
众数:出现频率最高的数值。
百分位数:第p百分位数是满足下列条件的一个数值:至少有p%的观测值小于或等于该值,且至少有(100-p)%的观测值大于或等于该值。
公式:i=(p/100)/n -------p:所求的百分位,n:观测值的个数
2.变异程度的度量
极差:极差=最大值-最小值
方差:每个观测值X与平均值的差称为平均数的离差。方差就是将这些平均数的离差平方。
(由于写公式不方便,查找不到好的办法,暂时复制)
标准差:是方差的平方差
公式:
3:形态的度量
前边是对数据未知和变异程度的度量,分布形态的度量也是很重要的。
分布形态:偏度
4:相对位置的度量
作用:确定某一个数值距离平均数的距离,用z-分数来表示,也称为标准化数值。
公式:
5:切比雪夫定理
应用:适用于任何数据集,不论其分布形态
定义:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/Z^2),其中z是大于1的实数。
当z=2,3和4个标准差是,该定理的一些含义如下
- 至少有0.75或75%的数据值与平均数的距离在z=2个标准差之内。
- 至少有0.89或89%的数据值与平均数的距离在z=3个标准差之内。
- 至少有0.94或94%的数据值与平均数的距离在z=4个标准差之内。
例子:
已知:某大学有100名学生,平均成绩为70分,标准差5分
求:有多少学生成绩在60-80之间?58-82之间多少?
答:60比平均数70小2个标准差((70-60)/5),80比平均数大2个标准差,利用切比雪夫定理,可以得知有0.75或75%的观测值与平均数的距离在2个标准差之内, 因此,至少75%的学生考试成绩在60-80分。
58比平均数70少2.4个标准差,同理82比平均数多了2.4个标准差,应用切比雪夫原理且z=2.4,得到
(1-1/2.4^2)=0.826,也就是有至少82.6%的学生成绩在58-82之间。
6:经验法则
应用:适用于钟形分布或者峰行分布
特性:对于具有钟形分布的数据来讲
- 大约68%的数据值与平均数的距离在1个标准差之内。
- 大约95%的数据值与平均数的距离在2个标准差之内。
- 几乎所有的数据值与平均数的距离在3个标准差之内。