统计学主要通过搜集、整理 分析,对数据进行描述进而做出推断、决策。
统计的内容主要分数值数据和分类数据。
数值数据指的是描述统计,包括统计度量和图形
分类数据包括频数统计和频数百分比,单纯针对各分类计数统计。
MEDIAN(F,F)中位数(中间的数) MODE() 众数 (出现次数最多的数) AVERAGE() 平均数
分位数包括:第一分位数 25% 第二分位数 中位数 第三分位数 75%
QUARTILE(F:F,3) 方差 VAR(F2:F10) 描述数据的离散程度。
标准差STDEVP(A1:A10) 平均值+标准差(+-) 上下限数值
数据标准化 Z-score z=(x-u)/标准差 =(具体值-平均值)/标准差
数据标准化使分析更细致,易于检查并发现清晰明了的趋势,把不能直接对比的数据分别标准化后在进行对比。
时间是一种属性,隐含着特定的规律,销量与时间有关系,但时间背后是与用户行为及其他一系列因素相关。
切比雪夫定理
至少75%的数据 位于平均数 2个标准差范围内
至少89%的数据 位于平均数3个标准差范围内
至少96%的数据 位于平均数 5个标准差范围内
箱线图的 第一分位数 第三分位数 中横线是中位数 四分位差IQR=Q3-Q1 下边缘=Q1-1.5IQR 上边缘=Q3+1.5IQR
对于异常值的估计 基于分位数
概率分 补集 交集 并集
P(A∪B) = P(A)+P(B) - P(A∩B)
P(A|B)=(P(A∩B))/(P(B))= P(A)
1. 贝叶斯定理
2. 二项分布
二项分布是一种离散型的概率分布。二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。
前提:A.每次试验成功和失败的概率是相同的。B. 每次试验互相独立。
3. 泊松分布
泊松分布主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。
在任意一个单位区间中,时间发生的概率是相同的,每次事件互相独立。
4. 正态分布
连续变量分布是一个随机变量在其区间内当能够取任何数值时所具有的分布。
正态分布是一种连续型随机变量分布。
世界上绝大部分的分布都属于正态分布。
正态分布的形状是一条钟形曲线。以均值为中心左右对称,形状和均值u以及方差α有关。
标准正态分布是均值为0,方差为1的正态分布。
概率密度函数和累计分布函数
曲线fx是概率密度函数,曲线下的面积是Fx是累计分布函数,它是密度函数的积分。
当x取某个值时,概率密度函数表示随机变量在x点的取值概率。单纯的概率密度没有多少意义,因为连续变量只有在区间中才有计算意义。
累计分布函数,则用来计算取值在某个区间的概率。
标准正态分布中,给定一个值z:
计算随机变量z小于等于某一个值得概率。记为P(z<=x)
计算随机变量z在两个值之间的概率。记为P(x1<=z<=x2)
计算随机变量z大于等于某一个值的概率。记为P(z>=x)
z= (x-μ)/σ
5. 假设检验
假设检验的思想是反证法,如果一件事情发生的概率很小,但是它发生了,我们就把这件事情的原始结论推翻。
个案的发生,不能去证明某个结论,但是可以去否定它。
(1)AB测试是数据分析中一种常用的技巧,它的原理就是假设检验。
AB测试通常会采用抽样的方式将数据划分成两组,通过一组控制一组对照的方式进行观察。
简而言之,原假设为测试没有效果,分析师的目的是去否定它。当B组的数据和A组有显著差异时,则能否定。
(2)Z检验
因为AB测试的数据量都比较大,所以常用Z检验的方式进行验证。核心方法是当标准差已知时,验证A组和B组的均值是否相等。
置信区间
数据是波动的,我们能否因为几次结果就完全否认论证呢?并不能,置信区间的作用是让我们对数据更加宽容。
它的作用是不轻易拒绝原假设,而是给一个可靠度范围。一般来说,我们用95%作为可靠度,
简单说,就是有一个均值范围,它有95%的可能性包含了真值。
在AB测试中,我们可以定义为,用户购买转化率,有95%的可能性,是在23%~27%之间。另外5%,就是小概率了。
在实际业务中,当样本量足够时,转化率的计算是可以越过Z检验的计算过程,直接看转化结果。
因为样本量越大,对置信区间会越严格。
转化率在数据类型上是0和1的集合。除此,还有数值型的计算,比如消费额度、消费频次等。