几种分布概述(正态分布/卡方分布/F分布/T分布)

浏览: 815

作者简介

作者:结实 天善智能特邀讲师  人工智能爱好者社区特约作者


正态分布:正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

当μ=0,σ=1时,正态分布就成为标准正态分布N(0,1)。概率密度函数为:

正态分布的密度函数的特点是:关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。

卡方分布:若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和

构成一新的随机变量,其分布规律称为卡方分布(chi-squaredistribution)。其中参数n称为自由度(通俗讲,样本中独立或能自由变化的自变量的个数,称为自由度),正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个卡方分布。记为

卡方分布的均值为自由度 n,记为 

E() = n

卡方分布的方差为2倍的自由度(2n),记为

D() = 2n

卡方分布图可以看出:

卡方分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大;

卡方分布趋近于正态分布;随着自由度n的增大,

卡方分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。

t分布:首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)

由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。假设X服从标准正态分布N(0,1),Y服从(n)分布,那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,记为 Z~t(n)。

可以看出,t分布以0为中心,左右对称的单峰分布;t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。

  F分布:设X、Y为两个独立的随机变量,X服从自由度为n的卡方分布,Y服从自由度为m的卡方分布,这两个独立的卡方分布除以各自的自由度以后的比率服从F分布。即:

  F分布是一种非对称分布;它有两个自由度,即n-1和m-1,相应的分布记为F( n–1,m-1), n-1通常称为分子自由度, m-1通常称为分母自由度;F分布是一个以自由度(n-1)和(m-1)为参数的分布族,不同的自由度决定了F 分布的形状。


相关课程推荐

左手Python右手R,多算法对比,经典数据挖掘机器学习实战!

五大案例,六类模型,九大算法

推荐 1
本文由 人工智能爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册