天善菜鸟数据分析第一期4月10日作业

0
已邀请:
1

高阔 2016-04-15 回答

统计学基础:作业一

 

1.  如表中所示:

a.  城市每加仑平均行驶里程是多少?18.2英里

b.  就平均数而言,每加仑公路行驶里程比每加仑城市行驶里程多出多少?7.9英里

c.  4缸发动机汽车的比例是多少?  30%

d.  使用普通燃料的汽车的比例是多少?60%

 

2.  表中列出了被美国个体投资者协会跟踪的25只影子股票组成的一个数据集。影子股票是较小公司的普通股票,不受华尔街分析家们的密切关注。

a.  数据集中有多少变量?  5

b.  那些变量是分类变量?那些变量是数量变量?

分类变量:交易所,股票代码; 数量型:市场价是、市盈率、毛利率

c.  对交易所变量,编制AMEX,NYSE和OTC频数。

交易所 频数 相对频数 百分数频数 
AMEX 5 0.20 20 
OTC 17 0.68 68 
NYSE 3 0.12 12 
总计 25 1.00 100 



3.  表中是21个制药公司的年销售额数据(单位100万美金)

a.  用五数概括法汇总数据

最小值:608, 第一四分位数:1872,中位数:4019,第三四分位数:8305,最大值:14138

i= 0.25x21=5.25 (第6位数字)Q1=1872

i= 0.50x21=10.5 (第11位数字)中位数=4019

i= 0.75x21=15.75 (第16位数字)Q3=8305


b.  计算上、下界线

下限=Q1-1.5IQR= -7778

上限=Q3+1.5IQR= 17955


c.  数据中有异常值吗?

没有

d.  上表中强生公司销售额最多,为141.38亿美元,假设输入数据时发生了误差(互换了数据的位置),输入的数据是411.38亿美元。在(c)中用于检测异常值的方法能否发现这一问题并更正数据的输入误差?

可以

e.  绘制箱形图。

 

4.  美国人用于看电视的时间平均为每周15小时。假定选取60名美国人对看电视的习惯进行深入调查。假设每周看电视时间的总体标准差s=4小时。

a.  样本均值在总体均值左右±1小时以内的概率为多少?

n=60, μ=15,s=4

求x在14-16之间取值的概率

z1=(14-15)/(4/√60)=-1.94; z2=(16-15)/(4/√60)=+1.94


也就是求z在 -1.94 - +1.94之间取值的概率

P(z≤-1.94)=0.0262

P(z≥1.94)=0.9738

P(-1.94≤z≤1.94)=0.9476

样本均值在总体均值左右±1小时以内的概率为94.76%


b.  样本均值在总体均值左右±45分钟以内的概率为多少?

n=60, μ=15,s=4

45/60=0.75


求x在14.25-15.75之间取值的概率

z1=(14.25-15)/(4/√60)=-1.45; z2=(15.75-15)/ (4/√60)=+1.45

也就是求z在 -1.45 - +1.459之间取值的概率

P(z≤-1.45)=0.0735

P(z≥1.45)=0.9265


P(-1.45≤z≤1.45)=0.8530

样本均值在总体均值左右±45分钟以内的概率为85.30%

 
5.  SkillingsDistributors 的销售人员每周要提交一份报告,在报告中列出每周内与客户联系的情况。由65份周报告组成的样本表明,每周与顾客联系的样本均值为19.5人次,样本标准差为5.2人次。求销售人员每周与客户联系次数的总体均值的置信区间估计。取置信水平为90%和95%。

n=65,xbar=19.5, s=5.2

自由度n-1=64

90%的置信水平,t0.05=1.669

区间估计:19.5±1.669(5.2/√65); 19.5±1.076; (18.42, 20.58)

95%的置信水平,t0.025=1.998


区间估计:19.5±1.998(5.2/√65); 19.5±1.289; (18.21, 20.79)

 
6.  考虑如下假设检验:

H0:μ≥20

H­a:μ<20

一个容量为50的样本中,样本均值为19.4,总体标准差为2.

a.  计算检验统计量的值

n=65,xbar=19.4, s=2

z=(19.4-20)/(2/√50)=-2.12


b.  P-值为多少?

p值=P(z≤-2.12)=0.0170

c.  a=0.05时,你的结论如何?

p值=0.0170≤a=0.05

拒绝H0

d.  临界值法中的拒绝法则是什么?你的结论如何?

下侧检验

-za=-z0.05=-1.64

z=-2.12≤-za=-1.64

拒绝H0

 
0

zcfemail - 一句话介绍 2016-04-16 回答

老师,第五题,为什么要用T分布呢,当N>30时,不是可以用Z分布吗

要回复问题请先登录注册