对统计学原理的浅谈理解

浏览: 2357

最近一周重新看了统计学,笔者不是学统计的,开始看统计的时候说实话真难以看下去,全是陌生的,看的一蒙一蒙的

还好由于对假设检验总是搞不懂,所以没事总是翻来覆去的翻一番,加上买些相关的统计学来加强自己的理解,慢慢的就理解了,也许不是这个专业的可以按照我这个做法做起,从科普或者入门的而非教材做起

今天说说2个方面,统计目前大体可以分一个是描述,一个是推断

单说描述,以前看平均值的时候也是不理解就只知道模糊的运用,看了书才加深真正的理解(我只说自己的理解,至于其他的书上都有,大家也理解)

均值,其实是一组数据的中间值或者代表值,这个如何形象的理解呢,比如面对的庞大的数据,人肉眼上不知道到底多少,数来数去也浪费时间,所以人类发明了一个办法,简化数据,用一个数据来代替,这样整个人类就进步了(我猜的),原来庞大的数据人是分不清,现在只用一个数据一下子人就把握住了,多好的事,不足的是它会忽略数据的分布,数据间的不同

它的缺点是什么呢?是比较容易受极值影响,如果在直方图中右偏,会把均值往右拉

剩下2个是中位数和众数(不介绍)

前边说过,用一个数来代表整个数据集合,是不够准确的,遗漏了很多数据,比如数据间的距离是怎样的或者数据集合中的数据是如何分散的,而这个就是标准差了

这些在R中经常用的函数代码是summary 或者str等

这边说下推断统计

对于推断,它涉及到概率和假设检验(说到检验,之前我在想的时候就想为啥不证明假设而非的检验呢)

推断是建立在正太分布的基础上进行推断的,怎么理解正态分布呢,某个东西有好几个结果,如果我们经常做检验记录次数,记录到一定程度(其实结果就那些结果),你会发现大部分总是出现,小部分偶尔出现(其实我们生活中经常碰到这种,我们经常用分类思维来处理这事,对于这个我们也可以看做分类思维的基础应用)不同于直觉的是,这里给量化出来了,只需要2个参数 ,也就是标准差和均值,具体的95%落在2个+-标准差之内,99.7%是3个正负标准差内

剩下的是很少发生的,也就是说那个数据很少发生发生可以看做是不发生的,这样的话就给我们提供预测带来了基础,也为进行预测成为了可能

既然预测,我们的教育让们追求精准,那在这里就变成了100%,或者说我要求100%的预测,但是这样太美意义了,比如我说,我估计某个数肯定会出现,问题是当然会出现,只是没太多的意义,要做有意义,就必须舍弃某部分,必须在有限的范围内进行预测 ,就要舍弃一部分,就要做好落空这部分的心理准备,所以在这里 落空多少是合适的呢?我们需要多少合适的命中概率比较合适呢,95%的概率出来了,5%的概率相当于我们平时中 比如经常直观上说:“哎,这个不可能吧”这种超出我们意外的事情可以用5%的概率来代表,意思就是太不寻常了,太怪了或者很少发生啊或者真没想到回这样等等的语言

接下来说下假设检验,对于假设检验我还没有把握说完全理解,如果不对的地方还多多指点童鞋们

之前我很纠结老是理解不了显著性水平,今天我认识到这是说的在原假设为真拒绝原假设的概率,某某某拒绝了原假设我们就说具有显著性,更一步说在统计的基础上是有具有显著性的。取值是5%,为什么不能100%呢,举个例子,2个群体,高学历的父母与低学历的父母对孩子的成绩是否存在差异?即使存在差异,我们能100%保证是父母的学历对孩子起作用嘛,不能,为什么呢,因为很显然还有别的因素也在起作用,但是那些因素是什么,对不起回答不上来,因为太多难以解释,也就是说本质上说这个世界不完美,我们只能一定程度上信任这个导致差异的因素,我不能100% 绝对的 无条件的或者毫不含糊的确定这一点。换句话说我的结论是错误的可能性始终存在,不论这个可能性有多小

至于例子,可以自己想想(否则我们看不到穷的孩子怎么怎么等励志的报道)

所以对于这个我该怎么保证呢,统计学家就分配了一定的概率水平,并谨慎陈述结果

这部分内容有点大,我也还没完全的吃透,先写到这,后期续补


最近再看统计学书籍如下:

  • 从零开始读懂统计学
  • 爱上统计学
  • 赤裸裸的统计学
推荐 0
本文由 求知不才 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册