excel学统计基础（一）对单列数据进行描述性统计的生成指标解释和动手计算（0基础，自学自整理、自科普为机器学习打基础）

发表: 2018-05-14 浏览: 4706

R Python 机器学习统计学 Excel

本文目标：本文的内容是对excel统计结果反推计算过程加深理解，后续会写多列的计算。

《一元（多元）线性回归分析之Excel实现》帖子阅读后，发现excel中很多统计指标本人其实是似懂非懂，因此进行整理并使用常用函数手工计算一次，加深对指标的理解。

同样使用《women》数据集，对单列数据进行描述性统计：

一、描述性统计结果

依次点击数据>数据分析>描述统计即可掉出描述性统计，按下图填写：

没有此模块的请看一下《一元（多元）线性回归分析之Excel实现》中的过程，或者自行百度配置下。

图片.png

得到结果：

图片.png

我们对这里出现的统计参数逐个手工计算，为了能够对这些指标理解的更透策，我们尽量只使用常见函数计算避开统计函数。详细见附件。

二、统计指标解释及计算公式：

针对我这样的0基础同学，高手如果发现错误请指出，从易到难。

首先是比较简单的：

最小值 =MIN(B2:B16)，所在区域的最小值
最大值 =MAX(B2:B16)，所在区域的最大值
区域：=最大值-最小值，也就是极差，来评价一组数据的离散度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。
求和：=SUM(B2:B16) 区域内数值的和
观测数：=COUNT(B2:B16) 区域内数据的个数
平均：或者叫平均数， =求和/观测数
中位数：数学符号，
1. 概念：中位数（又称中值，英语：Median），统计学中的专有名词，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。
2. 计算规则当N为奇数时，；当N为偶数时，
3. excel计算 height列排序后，15为偶数，查找（15+1）/2=8 第8个数据为65，可以用=INDIRECT("B"&((G15+1)/2+1))表示，或者直接使用统计函数=MEDIAN(B2:B16)
众数：这里用的是当在数列中，有一个数出现最多次数的值，15个数据无重复因此报错。
1. 概念：众数（Mode）是统计学名词，在统计分布上具有明显集中趋势点的数值，代表数据的一般水平（众数可以不存在或多于一个）。修正定义：是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。用 M 表示。理性理解：简单的说，就是一组数据中占比例最多的那个数。
2. 众数、中位数、平均数区别和联系：
1）平均数是通过计算得到的，因此它会因每一个数据的变化而变化。
2）中位数是通过排序得到的，它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响，当一组数据中的个别数据变动较大时，常用它来描述这组数据的集中趋势。
3）众数也是数据的一种代表数，反映了一组数据的集中程度．日常生活中诸如“最佳”、“最受欢迎”、“最满意”等，都与众数有关系，它反映了一种最普遍的倾向。

然后是比较难的：

标准差，用σ表示：
1. 概念：标准差（Standard Deviation），中文环境中又常称均方差，是离均差平方的算术平均数的平方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。
2. 标准计算公式：
  1. 假设有一组数值X₁,X₂,X₃,......Xn（皆为实数），其平均值（算术平均值）为μ，标准差也被称为标准偏差，或者实验标准差，公式为，主要有N一般取N-1,如果自行开代码的话统一为N-1或者N即可（书上的描述是样本时取N-1）。
  2. excel计算过程：D列添加辅助列，D2中填写=(B2-$G$3)^2 为（样本-平均值）的平方，然后计算标准差=SQRT(SUM(D2:D16)/(G15-1))。注意excelN取的是N-1 也就是14.直接用15计算会与其结果有差异
  3. 统计学意义：方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数，它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根，用S表示
方差：方差=标准差的平。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。
标准误差：excel使用的计算公式为 =标准差/样本数的平方根，可以看作方差的均值的平方根。
峰值：
1. 概念：峰度（peakedness;kurtosis）又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然
2. excel计算公式：，可以用=(G15*(G15+1))/((G15-1)*(G15-2)*(G15-3))*SUM(E2:E16)-(3*(G15-1)^2)/((G15-2)*(G15-3))
3. 其他计算公式：在更通常的情况下，峰度被定义为四阶累积量除以二阶累积量的平方，它等于四阶中心矩除以概率分布方差的平方再减去3：
~~偏度：本人计算结果为0，没搞懂excel计算逻辑，后面研究下~~
1. 三阶偏度，据此公式计算m3=0偏度为0，但excel上结果为-3.66007590535766E-17接近于0 并不等于0
置信度(95.0%) excel可以用 =TINV(0.05,14)*G7/SQRT(15)计算，TINV(0.05,14)这个可以理解为一个参数（置信度为95%的置信区间时为0.05，数量用样本数-1），
置信区间为（平均数-置信度(95.0%)，平均数+置信度(95.0%)）