这几天查看大量的文章,对回归分析以及假设检验有了更深的认识
这篇我打算从生活中的角度来分析,这样才算真正理解了
先从基础知识开始
回归分析,可以理解成你在生活中 每次做一件事,总是受到隐形的各种元素的综合作用而形成的,但是有时候你能感觉出有个因素作用很大,但多大呢没法说出来,
除了此,还有别的因素也发生作用,多大呢 也说不出来,这时候你会想,要是我能把握住这种量的关系那就牛逼了,事实上这种关系就是说的回归分析,因变量就是那个果,自变量就是那些各种因素的组合
再说广告与销售额,销售额的影响一般除了广告外,还会受到 服务 自身的品牌力 以及老客户等若干若干的变量影响,所以如果我们根据广告与销售额模拟出一条回归线,它与实际值毕竟有误差,这误差就是表明了除了广告这个变量外,还有其它变量的影响所存在,只不过这次没有计算在内,这个概念就是残差平方差,表明的其余因素对因变量的影响,在统计学上这个概念用SSE表示,回归分析的那个用SSR(这个其实是理想的状态,表明了销售额只受广告影响,别无别的,这样的意思)但实际中不可能存在理想的,所以两者相加才是现实中的,这个学名叫总偏差平方和,用SST表示
模拟出直线后,你会发现 直线并没有全部穿越所有的点,也就是存在偏差,换句话说我们会想 这个线和真实的实际偏差大不大呢?它和实际的吻合程度如何?也就是拟合程度怎样,就是说这个线模拟多大的实际值呢
用判定系数来表示,一个是r^2,一个是相关系数r,这个学名叫皮尔逊相关系数
接下来就是假设检验,也是就是t分布 f分布啊 等出场了,t分布一般是单个自变量,f分布一般是对整个自变量进行检测,只需要记住这些就行了
不过有个问题一直理解不了,
假设检验为什么是为了检验x变量对应变量显著不显著呢?这问题先记载这里