菜鸟数据

菜鸟数据

0
投票
2
回答
1679
浏览
0
投票
3
已解决
1953
浏览

简单线性回归 公式问题

老头子 回复了问题 • 2016-11-10 11:55
3
推荐
2415
浏览

写给新人的数据挖掘知识

1数据挖掘技术的基本概念随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积...

菜鸟数据岛 发表了文章 • 2016-09-14 09:22

1
投票
2
回答
1631
浏览
2
推荐
2921
浏览

【干货】如何写竞品分析报告

1、确定竞品的种类竞品可以分为:直接竞品:产品定位(目标方向、目标用户用户需求、产品功能等)相似,这一类是最容易找到也最需要市场关注的竞品。间接竞品:产品目标人群可能相似,但是功能需求方面不太相同;...

菜鸟数据岛 发表了文章 • 2016-09-05 09:37

0
推荐
2054
浏览

常用大数据术语一览表

大数据有许多新术语,有时不好理解。因此,我们列出了一份大数据术语表,以便大家深入了解。A聚合-搜索、收集和显示数据的过程。算法-可以对数据执行某种分析的数学公式。分析―发现数据蕴含的洞察力。异常检测-搜...

菜鸟数据岛 发表了文章 • 2016-09-02 09:40

0
推荐
1650
浏览

炙手可热的大数据是“泡沫”?

在互联网行业,你如果不能随口分析目前的大数据发展状况,估计你会沦落到鄙视链的最底端。即使在传统行业,数据意识也成为从员工到管理者眼中最具潜力的驱动力量……目前大数据的火热程度可见一斑。我们都在说大数...

菜鸟数据岛 发表了文章 • 2016-09-02 09:31

1
推荐
1672
浏览

王宝强有九套房,为什么大家知道的只有美国那一套?

答案很简单,因为在美国,要找到一个人的公开信息,实在是太容易了。从某种意义上来说,美国可能是世界上最没有个人隐私的国家。一方面所有的商业交易遵循规范的流程,数据可以快速地汇总到数据库里;另一方面这...

菜鸟数据岛 发表了文章 • 2016-08-30 10:03

0
推荐
2645
浏览

【小菜数据经】如何计算客户终身价值

Hello,大家好,我是小菜,不知道大家最近有木有想我。这几天我被老大好顿折磨,额,你们别想歪,是精神上的折磨!最近他又给我出了一个难题,让我计算什么客户终身价值(CLV)。之前菜鸟数据岛推荐的《精益数据...

菜鸟数据岛 发表了文章 • 2016-08-29 09:11

1
推荐
3664
浏览

【用户画像系列】用户建模

为了满足用户的个性化需求,需要对用户画像进行建模,从而为行为分析习惯、兴趣偏好等重要的商业信息,提供大量的基础数据。1用户画像建模的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信息、产...

菜鸟数据岛 发表了文章 • 2016-08-26 11:44

1
推荐
1648
浏览

报告!A组岛民带着iphone4s的研究报告已登陆!

文章内容来源于菜鸟数据直播课程第一期学员的项目报告,此项目目的是为菜鸟数据学员提供一个学以致用的练习机会,所有报告内容均由菜鸟数据第一期A组学员完成。项目介绍假设你是苹果公司的产品运营,希望对刚上市...

菜鸟数据岛 发表了文章 • 2016-08-23 09:33

0
推荐
2176
浏览

令人抓狂的转化率该如何提升?

提升转化率是运营中的核心工作之一,意味着投资回报率ROI更高,运营的利益效果更好。我们先来看一下转化率的公式,这里要注意的是,统计的原则是在统一的统计周期内,因此,公式里的总人数也必须要统计周期内的总...

菜鸟数据岛 发表了文章 • 2016-08-22 10:40

0
推荐
2379
浏览

【大咖说】最不靠谱数据分析师面试+三招帮你防被坑

菜鸟数据岛的岛民,大家好,今天我们请到的是刚刚路遇不靠谱招聘的小小菜,用亲身经历给大家讲讲,不靠谱的数据分析面试到底有多坑!被采访人:小小菜背景:专业应用数学,数据分析专员,工作经验2年。面试公司:...

菜鸟数据岛 发表了文章 • 2016-08-22 10:38

0
推荐
1521
浏览

结构化拖延助你成为高效人士

上周末我就想写这篇文章,但是为什么现在才做?因为我忙到一点时间都没有?错!因为我一直拖延?对!我要写项目提案、我要出和公司各部门合作推广的方案、我要给上司呈现项目进程、我要安排客户回访……我现在在写...

菜鸟数据岛 发表了文章 • 2016-08-19 11:46

1
推荐
2723
浏览

全球顶级咨询公司常用管理模型,你的公司一定能用到

导读:经营一家企业,是个非常好玩的事,你必须提供牛逼的产品,同时还要警惕虎视眈眈的竞争对手。为此,公司必须在市场、价格、质量、产量、功能、服务、研发等方面建立自己的核心竞争优势。1.波特五种竞争力分...

菜鸟数据岛 发表了文章 • 2016-08-18 09:09

条新动态, 点击查看
高阔

高阔 回答了问题 • 2016-04-15 23:27 • 2 个回复 不感兴趣

天善菜鸟数据分析第一期4月10日作业

赞同来自:

统计学基础:作业一

 

1.  如表中所示:

a.  城市每加仑平均行驶里程是多少? 18.2英里

b.  就平均数而言,每加仑公路行驶里程比每加仑城市行驶里程多出多少? 7.9英里

c.  4缸发动机汽车的比例是多少?   ... 显示全部 »
统计学基础:作业一

 

1.  如表中所示:

a.  城市每加仑平均行驶里程是多少? 18.2英里

b.  就平均数而言,每加仑公路行驶里程比每加仑城市行驶里程多出多少? 7.9英里

c.  4缸发动机汽车的比例是多少?   30%

d.  使用普通燃料的汽车的比例是多少? 60%

 

2.  表中列出了被美国个体投资者协会跟踪的25只影子股票组成的一个数据集。影子股票是较小公司的普通股票,不受华尔街分析家们的密切关注。

a.  数据集中有多少变量?   5

b.  那些变量是分类变量?那些变量是数量变量?

分类变量:交易所,股票代码; 数量型:市场价是、市盈率、毛利率

c.  对交易所变量,编制AMEX,NYSE和OTC频数。

交易所 频数 相对频数 百分数频数 
AMEX 5 0.20 20 
OTC 17 0.68 68 
NYSE 3 0.12 12 
总计 25 1.00 100 


3.  表中是21个制药公司的年销售额数据(单位100万美金)

a.  用五数概括法汇总数据

最小值:608, 第一四分位数:1872,中位数:4019,第三四分位数:8305,最大值:14138

i= 0.25x21=5.25 (第6位数字)Q1=1872

i= 0.50x21=10.5 (第11位数字)中位数=4019

i= 0.75x21=15.75 (第16位数字)Q3=8305

b.  计算上、下界线

下限=Q1-1.5IQR= -7778

上限=Q3+1.5IQR= 17955

c.  数据中有异常值吗?

没有

d.  上表中强生公司销售额最多,为141.38亿美元,假设输入数据时发生了误差(互换了数据的位置),输入的数据是411.38亿美元。在(c)中用于检测异常值的方法能否发现这一问题并更正数据的输入误差?

可以

e.  绘制箱形图。

 

4.  美国人用于看电视的时间平均为每周15小时。假定选取60名美国人对看电视的习惯进行深入调查。假设每周看电视时间的总体标准差s=4小时。

a.  样本均值在总体均值左右±1小时以内的概率为多少?

n=60, μ=15,s=4

求x在14-16之间取值的概率

z1=(14-15)/(4/√60)=-1.94; z2=(16-15)/(4/√60)=+1.94

也就是求z在 -1.94 - +1.94之间取值的概率

P(z≤-1.94)=0.0262

P(z≥1.94)=0.9738

P(-1.94≤z≤1.94)=0.9476

样本均值在总体均值左右±1小时以内的概率为94.76%

b.  样本均值在总体均值左右±45分钟以内的概率为多少?

n=60, μ=15,s=4

45/60=0.75

求x在14.25-15.75之间取值的概率

z1=(14.25-15)/(4/√60)=-1.45; z2=(15.75-15)/ (4/√60)=+1.45

也就是求z在 -1.45 - +1.459之间取值的概率

P(z≤-1.45)=0.0735

P(z≥1.45)=0.9265

P(-1.45≤z≤1.45)=0.8530

样本均值在总体均值左右±45分钟以内的概率为85.30%

 
5.  SkillingsDistributors 的销售人员每周要提交一份报告,在报告中列出每周内与客户联系的情况。由65份周报告组成的样本表明,每周与顾客联系的样本均值为19.5人次,样本标准差为5.2人次。求销售人员每周与客户联系次数的总体均值的置信区间估计。取置信水平为90%和95%。

n=65,xbar=19.5, s=5.2

自由度n-1=64

90%的置信水平,t0.05=1.669

区间估计:19.5±1.669(5.2/√65); 19.5±1.076; (18.42, 20.58)

95%的置信水平,t0.025=1.998

区间估计:19.5±1.998(5.2/√65); 19.5±1.289; (18.21, 20.79)

 
6.  考虑如下假设检验:

H0:μ≥20

H­a:μ<20

一个容量为50的样本中,样本均值为19.4,总体标准差为2.

a.  计算检验统计量的值

n=65,xbar=19.4, s=2

z=(19.4-20)/(2/√50)=-2.12

b.  P-值为多少?

p值=P(z≤-2.12)=0.0170

c.  a=0.05时,你的结论如何?

p值=0.0170≤a=0.05

拒绝H0

d.  临界值法中的拒绝法则是什么?你的结论如何?

下侧检验

-za=-z0.05=-1.64

z=-2.12≤-za=-1.64

拒绝H0
 
牟瑞

牟瑞 回答了问题 • 2016-04-12 10:07 • 2 个回复 不感兴趣

有谁可以 简单的解释下 自由度吗

赞同来自:

统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
1.在估计总体的平均数时,由于样本中的 n 个数都是相互... 显示全部 »
统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
1.在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。
在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。
2.统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。
在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以已知道总体均值或其他统计参数时方差应除以n,除以n-1时是方差的一个无偏估计。
 
以上的内容来自百度百科,基本上说的比较简单了,还有根据个人经验,前期不好理解的话,直接记住各种估计的自由度,然后慢慢理解!这方面的估计做多了,就理解了。
 
简单回答下,这个代码编辑器没有办法写公式,所以凑合看。
首先,你的第一个内容,总体均值的区间估计主要分三种情况:
1.样本非常大的时候,使用Z分布计算区间估计
2.样本量小(一般小于30),总体分布已知,采用t正态分布
3.样本量小(一般小于30),总体分布未... 显示全部 »
简单回答下,这个代码编辑器没有办法写公式,所以凑合看。
首先,你的第一个内容,总体均值的区间估计主要分三种情况:
1.样本非常大的时候,使用Z分布计算区间估计
2.样本量小(一般小于30),总体分布已知,采用t正态分布
3.样本量小(一般小于30),总体分布未知,采用t分布
所以,区间估计的公式应该是有3个计算公式。
 
反推n的时候,在这个是有一个假定的,这个假定是样本服从正态分布,只有在这个假定的前提下,才能采用Z@/2,如果没有这个假定前提,也是不能使用Z@/2
 
以上,只是想起来的,后面有时间写个博客详细说下。
老师说可以啊,好像是我课间问的问题
老师说可以啊,好像是我课间问的问题
Olivia老师:“统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。”这句话解释得就很好了. 自由度最开始理解起来比较抽象,可能有点难度,建议可以自己把每个公式和它对应的自由度总结一下,比较着看就容易体会意思了,当j 等于1时,代表第一个总体相... 显示全部 »
Olivia老师:“统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。”这句话解释得就很好了. 自由度最开始理解起来比较抽象,可能有点难度,建议可以自己把每个公式和它对应的自由度总结一下,比较着看就容易体会意思了,当j 等于1时,代表第一个总体相关的参数,j等于2时,代表第二个总体相关的参数,j 等于k时代表第k个总体相关的参数。K是一共有K个总体, j 不过就是代表1到k中间的任意一个。
高阔

高阔 回答了问题 • 2016-04-22 11:20 • 1 个回复 不感兴趣

一组数据满足什么条件,可以成为正态分布

赞同来自:

Olivia老师:
16543

 
Olivia老师:
16543

 
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
Brad_Q1

Brad_Q1 回答了问题 • 2016-05-05 10:45 • 1 个回复 不感兴趣

R软件怎么筛选出一堆数据中的前三名?

赞同来自:

head(YourDataFrame,3)
head(YourDataFrame,3)
JoyBI

JoyBI 回答了问题 • 2016-06-12 09:58 • 1 个回复 不感兴趣

tableau这种背景色如何设置

赞同来自:

点击工具栏上面的“地图”选项,操作如下
“地图—地图层—样式—黑色”
 
点击工具栏上面的“地图”选项,操作如下
“地图—地图层—样式—黑色”
 
高阔

高阔 回答了问题 • 2016-07-04 21:11 • 1 个回复 不感兴趣

聚类分析常用的五个算法是什么?

赞同来自:

19757
 
19757
 
0
推荐
2158
浏览

【大咖说】面试官看着你的时候到底在想啥?

菜鸟数据岛的岛民们周末好,又到大咖秀的时间~~小编知道大家最关心的就是找工作的问题啦,毕竟创业水深人多,找棵大树乘凉学知识才是菜鸟们的正途。今天给大家请来阿里大牛,面试过无数数据分析师的面包君(花名...

菜鸟数据岛 发表了文章 • 2016-08-07 21:28

3
推荐
2334
浏览

【岛民测试】听说人人都想成为数据分析师?

07July,2016各位岛民大家好,菜鸟数据岛已开启原创功能,感谢岛民们的长久的支持,我们会继续带来更好的原创内容,也欢迎大家踊跃投稿,让我们一起进步,共同成长!测试时间为25分钟,Let go第一部分:请判断一下...

菜鸟数据岛 发表了文章 • 2016-07-07 09:11

0
投票
2
回答
1679
浏览
0
投票
3
已解决
1953
浏览

简单线性回归 公式问题

老头子 回复了问题 • 2016-11-10 11:55
0
投票
1
回答
1259
浏览
0
投票
1
回答
1240
浏览

菜鸟数据早间提问

回复了问题 • 2016-07-12 09:35
0
投票
0
回答
1392
浏览
0
投票
1
回答
1160
浏览

数据挖掘与分析的步骤?

高阔 回复了问题 • 2016-07-05 22:15
0
投票
1
已解决
1416
浏览
0
投票
1
已解决
6362
浏览

tableau这种背景色如何设置

JoyBI 回复了问题 • 2016-06-12 09:58
0
投票
0
回答
1199
浏览
0
投票
0
回答
1114
浏览
0
投票
1
回答
1067
浏览
0
投票
0
回答
1065
浏览
3
推荐
2415
浏览

写给新人的数据挖掘知识

1数据挖掘技术的基本概念随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积...

菜鸟数据岛 发表了文章 • 2016-09-14 09:22

2
推荐
2921
浏览

【干货】如何写竞品分析报告

1、确定竞品的种类竞品可以分为:直接竞品:产品定位(目标方向、目标用户用户需求、产品功能等)相似,这一类是最容易找到也最需要市场关注的竞品。间接竞品:产品目标人群可能相似,但是功能需求方面不太相同;...

菜鸟数据岛 发表了文章 • 2016-09-05 09:37

0
推荐
2054
浏览

常用大数据术语一览表

大数据有许多新术语,有时不好理解。因此,我们列出了一份大数据术语表,以便大家深入了解。A聚合-搜索、收集和显示数据的过程。算法-可以对数据执行某种分析的数学公式。分析―发现数据蕴含的洞察力。异常检测-搜...

菜鸟数据岛 发表了文章 • 2016-09-02 09:40

0
推荐
1650
浏览

炙手可热的大数据是“泡沫”?

在互联网行业,你如果不能随口分析目前的大数据发展状况,估计你会沦落到鄙视链的最底端。即使在传统行业,数据意识也成为从员工到管理者眼中最具潜力的驱动力量……目前大数据的火热程度可见一斑。我们都在说大数...

菜鸟数据岛 发表了文章 • 2016-09-02 09:31

1
推荐
1672
浏览

王宝强有九套房,为什么大家知道的只有美国那一套?

答案很简单,因为在美国,要找到一个人的公开信息,实在是太容易了。从某种意义上来说,美国可能是世界上最没有个人隐私的国家。一方面所有的商业交易遵循规范的流程,数据可以快速地汇总到数据库里;另一方面这...

菜鸟数据岛 发表了文章 • 2016-08-30 10:03

0
推荐
2645
浏览

【小菜数据经】如何计算客户终身价值

Hello,大家好,我是小菜,不知道大家最近有木有想我。这几天我被老大好顿折磨,额,你们别想歪,是精神上的折磨!最近他又给我出了一个难题,让我计算什么客户终身价值(CLV)。之前菜鸟数据岛推荐的《精益数据...

菜鸟数据岛 发表了文章 • 2016-08-29 09:11

1
推荐
3664
浏览

【用户画像系列】用户建模

为了满足用户的个性化需求,需要对用户画像进行建模,从而为行为分析习惯、兴趣偏好等重要的商业信息,提供大量的基础数据。1用户画像建模的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信息、产...

菜鸟数据岛 发表了文章 • 2016-08-26 11:44

1
推荐
1648
浏览

报告!A组岛民带着iphone4s的研究报告已登陆!

文章内容来源于菜鸟数据直播课程第一期学员的项目报告,此项目目的是为菜鸟数据学员提供一个学以致用的练习机会,所有报告内容均由菜鸟数据第一期A组学员完成。项目介绍假设你是苹果公司的产品运营,希望对刚上市...

菜鸟数据岛 发表了文章 • 2016-08-23 09:33

0
推荐
2176
浏览

令人抓狂的转化率该如何提升?

提升转化率是运营中的核心工作之一,意味着投资回报率ROI更高,运营的利益效果更好。我们先来看一下转化率的公式,这里要注意的是,统计的原则是在统一的统计周期内,因此,公式里的总人数也必须要统计周期内的总...

菜鸟数据岛 发表了文章 • 2016-08-22 10:40

0
推荐
2379
浏览

【大咖说】最不靠谱数据分析师面试+三招帮你防被坑

菜鸟数据岛的岛民,大家好,今天我们请到的是刚刚路遇不靠谱招聘的小小菜,用亲身经历给大家讲讲,不靠谱的数据分析面试到底有多坑!被采访人:小小菜背景:专业应用数学,数据分析专员,工作经验2年。面试公司:...

菜鸟数据岛 发表了文章 • 2016-08-22 10:38

0
推荐
1521
浏览

结构化拖延助你成为高效人士

上周末我就想写这篇文章,但是为什么现在才做?因为我忙到一点时间都没有?错!因为我一直拖延?对!我要写项目提案、我要出和公司各部门合作推广的方案、我要给上司呈现项目进程、我要安排客户回访……我现在在写...

菜鸟数据岛 发表了文章 • 2016-08-19 11:46

1
推荐
2723
浏览

全球顶级咨询公司常用管理模型,你的公司一定能用到

导读:经营一家企业,是个非常好玩的事,你必须提供牛逼的产品,同时还要警惕虎视眈眈的竞争对手。为此,公司必须在市场、价格、质量、产量、功能、服务、研发等方面建立自己的核心竞争优势。1.波特五种竞争力分...

菜鸟数据岛 发表了文章 • 2016-08-18 09:09

2
推荐
2179
浏览

《金字塔原理》(一)论文章结构的重要性

读书笔记-一个完全看作者心情更新的系列文这可能不同于你读过的其他读书笔记,我会将书中的文字结合我自己的理解和经历重新写给你。《金字塔原理》目录第一篇    表达的逻辑第二篇   &n...

菜鸟数据岛 发表了文章 • 2016-08-17 09:13

1
推荐
3375
浏览

【用户画像系列】那些年我们总谈的用户画像

                      什么是用户画像?从中文的概念来讲,用户画像与用户角色非常相近,是用来勾...

菜鸟数据岛 发表了文章 • 2016-08-16 09:18

1
推荐
1656
浏览

这个时代,一切都被记录和分析

不管我们心中是否还怀着对旧时代的眷恋和对新时代的惶恐,一个“一切都被记录,一切都被分析”的数据化时代的到来,是不可抗拒的。亲爱的朋友,如果你希望像纸版的《新闻周刊》一样,用血肉之躯抵挡互联网的巨轮,...

菜鸟数据岛 发表了文章 • 2016-08-15 15:29