excel学统计基础(一)对单列数据进行描述性统计的生成指标解释和动手计算(0基础,自学自整理、自科普为机器学习打基础)

浏览: 4706

本文目标:本文的内容是对excel统计结果反推计算过程加深理解,后续会写多列的计算。

《一元(多元)线性回归分析之Excel实现》帖子阅读后,发现excel中很多统计指标本人其实是似懂非懂,因此进行整理并使用常用函数手工计算一次,加深对指标的理解。

同样使用《women》数据集,对单列数据进行描述性统计:

一、描述性统计结果

依次点击 数据>数据分析>描述统计 即可掉出描述性统计,按下图填写:

没有此模块的 请看一下《一元(多元)线性回归分析之Excel实现》中的过程,或者自行百度配置下。

图片.png

得到结果:

图片.png

我们对这里出现的统计参数逐个手工计算,为了能够对这些指标理解的更透策,我们尽量只使用常见函数计算避开统计函数。详细见附件。

二、统计指标解释及计算公式:

针对我这样的0基础同学,高手如果发现错误请指出,从易到难。

首先是比较简单的:

  1. 最小值 =MIN(B2:B16),所在区域的最小值
  2. 最大值 =MAX(B2:B16),所在区域的最大值
  3. 区域:=最大值-最小值,也就是极差,来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。
  4. 求和:=SUM(B2:B16) 区域内数值的和
  5. 观测数:=COUNT(B2:B16) 区域内数据的个数
  6. 平均:或者叫平均数, =求和/观测数
  7. 中位数:数学符号
    1. 概念:中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。
    2. 计算规则当N为奇数时,;当N为偶数时,
    3. excel计算 height列排序后,15为偶数, 查找(15+1)/2=8 第8个数据为65,可以用=INDIRECT("B"&((G15+1)/2+1))表示,或者直接使用统计函数=MEDIAN(B2:B16)
  8. 众数:这里用的是当在数列中,有一个数出现最多次数的值,15个数据无重复因此报错。
    1. 概念:众数(Mode)是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

    2. 众数、中位数、平均数区别和联系:

    1)平均数是通过计算得到的,因此它会因每一个数据的变化而变化。

    2)中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势

    3)众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向。

然后是比较难的:

  1. 标准差,用σ表示:

    1. 概念:标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
    2. 标准计算公式:
      1. 假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值算术平均值)为μ,标准差也被称为标准偏差,或者实验标准差,公式为,主要有N一般取N-1,如果自行开代码的话统一为N-1或者N即可(书上的描述是样本时取N-1)。
      2. excel计算过程:D列添加辅助列,D2中填写=(B2-$G$3)^2 为(样本-平均值)的平方,然后计算标准差=SQRT(SUM(D2:D16)/(G15-1))。注意excelN取的是N-1 也就是14.直接用15计算会与其结果有差异
      3. 统计学意义:方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示
  2. 方差:方差=标准差的平。 统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
  3. 标准误差:excel使用的计算公式为 =标准差/样本数的平方根,可以看作方差的均值的平方根。
  4. 峰值:
    1. 概念:峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然
    2. excel计算公式:图片.png,可以用=(G15*(G15+1))/((G15-1)*(G15-2)*(G15-3))*SUM(E2:E16)-(3*(G15-1)^2)/((G15-2)*(G15-3))
    3. 其他计算公式:在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:
  5. 偏度:本人计算结果为0,没搞懂excel计算逻辑,后面研究下
    1. 三阶偏度,使用三阶中心距计量的偏度系数据此公式计算m3=0偏度为0,但excel上结果为-3.66007590535766E-17接近于0 并不等于0
    2. https://images2018.cnblogs.com/blog/890640/201805/890640-20180501214851275-1305502178.png
  6. 置信度(95.0%) excel可以用 =TINV(0.05,14)*G7/SQRT(15)计算,TINV(0.05,14)这个可以理解为一个参数(置信度为95%的置信区间时为0.05,数量用样本数-1),
  7. 置信区间为 (平均数-置信度(95.0%),平均数+置信度(95.0%))
推荐 1
本文由 xinglipeng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

博客目录还有分类可以再研究一下,更美观哈哈哈,加油ヾ(◍°∇°◍)ノ゙
谢谢 原来还有这个东西,回去研究研究,过几天一起改一下

要回复文章请先登录注册