菜鸟数据
天善菜鸟数据分析之数学之美.PDF
简单线性回归 公式问题
写给新人的数据挖掘知识
菜鸟数据岛 发表了文章 • 2016-09-14 09:22
天善菜鸟数据分析R语言课程案例练习案例一:航空公司客户价值分析
【干货】如何写竞品分析报告
菜鸟数据岛 发表了文章 • 2016-09-05 09:37
常用大数据术语一览表
菜鸟数据岛 发表了文章 • 2016-09-02 09:40
炙手可热的大数据是“泡沫”?
菜鸟数据岛 发表了文章 • 2016-09-02 09:31
王宝强有九套房,为什么大家知道的只有美国那一套?
菜鸟数据岛 发表了文章 • 2016-08-30 10:03
【小菜数据经】如何计算客户终身价值
菜鸟数据岛 发表了文章 • 2016-08-29 09:11
【用户画像系列】用户建模
菜鸟数据岛 发表了文章 • 2016-08-26 11:44
报告!A组岛民带着iphone4s的研究报告已登陆!
菜鸟数据岛 发表了文章 • 2016-08-23 09:33
令人抓狂的转化率该如何提升?
菜鸟数据岛 发表了文章 • 2016-08-22 10:40
【大咖说】最不靠谱数据分析师面试+三招帮你防被坑
菜鸟数据岛 发表了文章 • 2016-08-22 10:38
结构化拖延助你成为高效人士
菜鸟数据岛 发表了文章 • 2016-08-19 11:46
全球顶级咨询公司常用管理模型,你的公司一定能用到
菜鸟数据岛 发表了文章 • 2016-08-18 09:09
1. 如表中所示:
a. 城市每加仑平均行驶里程是多少? 18.2英里
b. 就平均数而言,每加仑公路行驶里程比每加仑城市行驶里程多出多少? 7.9英里
c. 4缸发动机汽车的比例是多少? ... 显示全部 »
1. 如表中所示:
a. 城市每加仑平均行驶里程是多少? 18.2英里
b. 就平均数而言,每加仑公路行驶里程比每加仑城市行驶里程多出多少? 7.9英里
c. 4缸发动机汽车的比例是多少? 30%
d. 使用普通燃料的汽车的比例是多少? 60%
2. 表中列出了被美国个体投资者协会跟踪的25只影子股票组成的一个数据集。影子股票是较小公司的普通股票,不受华尔街分析家们的密切关注。
a. 数据集中有多少变量? 5
b. 那些变量是分类变量?那些变量是数量变量?
分类变量:交易所,股票代码; 数量型:市场价是、市盈率、毛利率
c. 对交易所变量,编制AMEX,NYSE和OTC频数。
交易所 频数 相对频数 百分数频数
AMEX 5 0.20 20
OTC 17 0.68 68
NYSE 3 0.12 12
总计 25 1.00 100
3. 表中是21个制药公司的年销售额数据(单位100万美金)
a. 用五数概括法汇总数据
最小值:608, 第一四分位数:1872,中位数:4019,第三四分位数:8305,最大值:14138
i= 0.25x21=5.25 (第6位数字)Q1=1872
i= 0.50x21=10.5 (第11位数字)中位数=4019
i= 0.75x21=15.75 (第16位数字)Q3=8305
b. 计算上、下界线
下限=Q1-1.5IQR= -7778
上限=Q3+1.5IQR= 17955
c. 数据中有异常值吗?
没有
d. 上表中强生公司销售额最多,为141.38亿美元,假设输入数据时发生了误差(互换了数据的位置),输入的数据是411.38亿美元。在(c)中用于检测异常值的方法能否发现这一问题并更正数据的输入误差?
可以
e. 绘制箱形图。
4. 美国人用于看电视的时间平均为每周15小时。假定选取60名美国人对看电视的习惯进行深入调查。假设每周看电视时间的总体标准差s=4小时。
a. 样本均值在总体均值左右±1小时以内的概率为多少?
n=60, μ=15,s=4
求x在14-16之间取值的概率
z1=(14-15)/(4/√60)=-1.94; z2=(16-15)/(4/√60)=+1.94
也就是求z在 -1.94 - +1.94之间取值的概率
P(z≤-1.94)=0.0262
P(z≥1.94)=0.9738
P(-1.94≤z≤1.94)=0.9476
样本均值在总体均值左右±1小时以内的概率为94.76%
b. 样本均值在总体均值左右±45分钟以内的概率为多少?
n=60, μ=15,s=4
45/60=0.75
求x在14.25-15.75之间取值的概率
z1=(14.25-15)/(4/√60)=-1.45; z2=(15.75-15)/ (4/√60)=+1.45
也就是求z在 -1.45 - +1.459之间取值的概率
P(z≤-1.45)=0.0735
P(z≥1.45)=0.9265
P(-1.45≤z≤1.45)=0.8530
样本均值在总体均值左右±45分钟以内的概率为85.30%
5. SkillingsDistributors 的销售人员每周要提交一份报告,在报告中列出每周内与客户联系的情况。由65份周报告组成的样本表明,每周与顾客联系的样本均值为19.5人次,样本标准差为5.2人次。求销售人员每周与客户联系次数的总体均值的置信区间估计。取置信水平为90%和95%。
n=65,xbar=19.5, s=5.2
自由度n-1=64
90%的置信水平,t0.05=1.669
区间估计:19.5±1.669(5.2/√65); 19.5±1.076; (18.42, 20.58)
95%的置信水平,t0.025=1.998
区间估计:19.5±1.998(5.2/√65); 19.5±1.289; (18.21, 20.79)
6. 考虑如下假设检验:
H0:μ≥20
Ha:μ<20
一个容量为50的样本中,样本均值为19.4,总体标准差为2.
a. 计算检验统计量的值
n=65,xbar=19.4, s=2
z=(19.4-20)/(2/√50)=-2.12
b. P-值为多少?
p值=P(z≤-2.12)=0.0170
c. a=0.05时,你的结论如何?
p值=0.0170≤a=0.05
拒绝H0
d. 临界值法中的拒绝法则是什么?你的结论如何?
下侧检验
-za=-z0.05=-1.64
z=-2.12≤-za=-1.64
拒绝H0
1.在估计总体的平均数时,由于样本中的 n 个数都是相互... 显示全部 »
1.在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。
在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。
2.统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。
在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以已知道总体均值或其他统计参数时方差应除以n,除以n-1时是方差的一个无偏估计。
以上的内容来自百度百科,基本上说的比较简单了,还有根据个人经验,前期不好理解的话,直接记住各种估计的自由度,然后慢慢理解!这方面的估计做多了,就理解了。
首先,你的第一个内容,总体均值的区间估计主要分三种情况:
1.样本非常大的时候,使用Z分布计算区间估计
2.样本量小(一般小于30),总体分布已知,采用t正态分布
3.样本量小(一般小于30),总体分布未... 显示全部 »
首先,你的第一个内容,总体均值的区间估计主要分三种情况:
1.样本非常大的时候,使用Z分布计算区间估计
2.样本量小(一般小于30),总体分布已知,采用t正态分布
3.样本量小(一般小于30),总体分布未知,采用t分布
所以,区间估计的公式应该是有3个计算公式。
反推n的时候,在这个是有一个假定的,这个假定是样本服从正态分布,只有在这个假定的前提下,才能采用Z@/2,如果没有这个假定前提,也是不能使用Z@/2
以上,只是想起来的,后面有时间写个博客详细说下。
16543
16543
16737
16737
“地图—地图层—样式—黑色”
“地图—地图层—样式—黑色”
【大咖说】面试官看着你的时候到底在想啥?
菜鸟数据岛 发表了文章 • 2016-08-07 21:28
【岛民测试】听说人人都想成为数据分析师?
菜鸟数据岛 发表了文章 • 2016-07-07 09:11
天善菜鸟数据分析之数学之美.PDF
简单线性回归 公式问题
天善菜鸟数据分析R语言课程案例练习案例一:航空公司客户价值分析
早间提问: 简述k-means 算法的工作过程
数据清理中,处理缺失值的方法有哪些?
数据挖掘与分析的步骤?
聚类分析常用的五个算法是什么?
天善智能菜鸟数据分析Tableau课程 第二课 Tableau从入门到精通_计算字段.pdf
tableau这种背景色如何设置
天善菜鸟数据分析R语言课程第五课
天善菜鸟数据分析R语言课程第四课
天善菜鸟数据分析R语言课程案例练习案例二:家用电器用户行为分析与事件识别
天善菜鸟数据分析R语言5月5日课程代码
天善菜鸟数据分析R语言5月7日课程代码
写给新人的数据挖掘知识
菜鸟数据岛 发表了文章 • 2016-09-14 09:22
【干货】如何写竞品分析报告
菜鸟数据岛 发表了文章 • 2016-09-05 09:37
常用大数据术语一览表
菜鸟数据岛 发表了文章 • 2016-09-02 09:40
炙手可热的大数据是“泡沫”?
菜鸟数据岛 发表了文章 • 2016-09-02 09:31
王宝强有九套房,为什么大家知道的只有美国那一套?
菜鸟数据岛 发表了文章 • 2016-08-30 10:03
【小菜数据经】如何计算客户终身价值
菜鸟数据岛 发表了文章 • 2016-08-29 09:11
【用户画像系列】用户建模
菜鸟数据岛 发表了文章 • 2016-08-26 11:44
报告!A组岛民带着iphone4s的研究报告已登陆!
菜鸟数据岛 发表了文章 • 2016-08-23 09:33
令人抓狂的转化率该如何提升?
菜鸟数据岛 发表了文章 • 2016-08-22 10:40
【大咖说】最不靠谱数据分析师面试+三招帮你防被坑
菜鸟数据岛 发表了文章 • 2016-08-22 10:38
结构化拖延助你成为高效人士
菜鸟数据岛 发表了文章 • 2016-08-19 11:46
全球顶级咨询公司常用管理模型,你的公司一定能用到
菜鸟数据岛 发表了文章 • 2016-08-18 09:09
《金字塔原理》(一)论文章结构的重要性
菜鸟数据岛 发表了文章 • 2016-08-17 09:13
这个时代,一切都被记录和分析
菜鸟数据岛 发表了文章 • 2016-08-15 15:29