统计学

统计学

0
推荐
97
浏览

一张图看懂数据分析、机器学习、深度学习、人工智能的关系

​我是思宇:现在找到自己喜欢的工作了,分享下我当时换工作的经验。1.为什么要换工作?目标是什么?一定要明白自己换工作的原因,三思后行。当有换工作想法时,对自己当前工作情况做个总结,避免随意性地做决定。...

猴子聊人物 发表了文章 • 2019-09-11 17:18

0
推荐
102
浏览

机器学习札记18——SVM(1)

SVM支持向量机简介SVM(support vector machine)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使其区别于感知机,感知机只是找到一个分离超平面。SVM是非线性分类器学习策略...

皮大大 发表了文章 • 2019-09-05 20:55

0
推荐
117
浏览

机器学习札记17——线性回归LR

线性回归法思想解决回归问题算法可解释性强一般在坐标轴中:横轴是特征(属性),纵坐标为预测的结果,输出标记(具体数值)分类问题中,横轴和纵轴都是样本特征属性(肿瘤大小,肿瘤发现时间)问题产生image.png...

皮大大 发表了文章 • 2019-09-05 20:53

0
推荐
107
浏览

自动机器学习:最近进展研究综述

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。英文标题 | AutoML:A survey of State-of-the-art作 者 | Xin He, Kaiyong Zhao, Xiaowen Chu单 位 | Hong Kong Bap...

数智物语 发表了文章 • 2019-09-02 17:54

0
推荐
71
浏览

算法札记12——堆排序

树¶树一种抽象类型数据,用来模拟具有树状结构性质的数据集合。它是由多个有限节点组成一个层次关系的集合。特点:每个节点有0个或者多个子节点没有父节点的节点称之为根节点每个非根节点有且只有一个跟节点术语¶...

皮大大 发表了文章 • 2019-09-01 17:46

0
推荐
70
浏览

算法札记11——归并排序

归并排序算法思想归并排序算法会把序列分成长度相同的两个子序列,当无法继续往下分时(也就是每个子序列中只有一个数据时),就对子序列进行归并。归并指的是把两个排好序的子序列合并成一个有序序列。该操作会...

皮大大 发表了文章 • 2019-09-01 12:51

0
推荐
76
浏览

算法札记10——快速排序

快速排序算法思想快速排序算法首先会在序列中随机选择一个基准值(pivot),然后将除了基准值以外的数分为“比基准值小的数”和“比基准值大的数”这两个类别,再将其排列成以下形式:[ 比基准值小] 基准值 [比基准值...

皮大大 发表了文章 • 2019-09-01 12:49

0
推荐
72
浏览

算法札记7——栈和队列

栈概念栈是一种线性的数据结构,FILO(先进后出)的操作,可以用顺序表实现,也可以用链表来实现。想象成一个杯子,只能往上面倒水进去,把水倒出去的时候,上面的先出来。操作栈的基本操作包含:stack():创建空...

皮大大 发表了文章 • 2019-09-01 11:44

0
推荐
65
浏览

生产环境中进行机器学习模型部署(using Flask)

我们原来一直看的文章,大都是在讲机器学习原理、如何构造特征、如何调参之类的,但是实际中模型是如何进行部署的呢?下面的这篇文章就是在讲用Flask框架进行模型部署(注明:这篇文章基本是翻译国外大神的著作,...

DataFrog 发表了文章 • 2019-08-28 19:39

0
推荐
64
浏览

逻辑回归二分类总结(不断迭代,直到彻底掌握)

——背景——近来,想把学习过的机器学习算法做一个总结,于是打算结合网上的面试经验和工作的需求写下一个机器学习系列文章。这里是更多是参考网上以及书本中的知识,目的系统的整理这些知识,并且只要是参考的文章...

DataFrog 发表了文章 • 2019-08-28 19:34

0
推荐
63
浏览

入门机器学习到底需要多少数学知识

还记得上个月的时候,准备学习机器学习的知识,想着线性回归模型较简单一些,那就从它开始吧。可是仔细一看里面的知识包括矩阵、极大似然函数、求导等方面的知识,这些知识也只是大学的时候学习的,现在也早已还...

DataFrog 发表了文章 • 2019-08-28 19:24

0
推荐
60
浏览

成为数据分析师要掌握的统计知识(进阶版)

阅读指南:总体均值和比例的统计推断总体方差的统计推断总体均值和比例的统计推断其实数据分析更多情况是两个总体的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比...

DataFrog 发表了文章 • 2019-08-28 18:39

0
推荐
60
浏览

成为数据分析师要掌握的统计学知识(基础版)

阅读路线:概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验概率介绍概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通...

DataFrog 发表了文章 • 2019-08-28 18:37

0
推荐
95
浏览

比肩科技巨头,美林数据荣登IDC机器学习领导者象限

近日,全球知名研究机构IDC(International Data Corporation)发布《中国机器学习开发平台市场》报告,美林数据技术股份有限公司(简称:美林数据)凭借Tempo人工智能平台(Tempo AI)的出色表现,位居领导者象限...

Tempodata 发表了文章 • 2019-08-27 21:15

0
推荐
94
浏览

算法札记6——常见数据结构汇总

本篇札记中主要介绍了几种常见的数据结构,包含它们的特点,常见操作和时间复杂度等链表数组哈希表堆栈(FILO)队列(FIFO)

皮大大 发表了文章 • 2019-08-27 08:48

条新动态, 点击查看
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大... 显示全部 »
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark
BAO胖子

BAO胖子 回答了问题 • 2016-06-20 16:09 • 3 个回复 不感兴趣

如何发现用电量异常单位?

赞同来自:

用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死... 显示全部 »
用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死,火电贵的要命,所以丰水期多生产,枯水期少生产,这个也有季节规律。所以你弄16个月做基础数据做递推这个套路似乎就有问题。通常用灰色模型,winter模型等有一定季节规律的模型算稍微靠谱一些,而且怎么也得弄3年以上数据。
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Ti... 显示全部 »
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Tibshirani,是统计学习的入门级读物(英文的,这两位教授也是Standford的教授,Stanford上有相关的教学视频),同时此书也是经典著作《Elements of Statistical Learning》简称ESL的入门版;3、《统计学习方法》——李航,干货很多,有数学推导,难度适中,中文。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3... 显示全部 »
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal  components ).
使用R语言
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,建议用该方法。
okajun

okajun 回答了问题 • 2016-07-20 16:56 • 1 个回复 不感兴趣

统计学本科生初学BI,求各位大神指点一二

赞同来自:

我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖... 显示全部 »
我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖求助~
关于BI,学院上有个视频介绍,免费的
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
liliwu

liliwu 回答了问题 • 2016-11-04 16:43 • 2 个回复 不感兴趣

关于中位数

赞同来自:

要排序的哥
要排序的哥
marxsong

marxsong 回答了问题 • 2016-12-21 11:18 • 1 个回复 不感兴趣

关于数据成绩的问题,遇以下问题

赞同来自:

有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最... 显示全部 »
有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最终成绩进行预测,也可以使用回归树模型、神经网络模型、随机森林等等
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,... 显示全部 »
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,微积分和线性代数更没啥用处。其实如果只是做表哥表姐的话统计学都没啥用处,哈哈
 
 
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
3
推荐
2149
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1414
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

5
推荐
2056
浏览

关联规则R语言实战(Apriori算法)

  最近遇到一个业务问题需要用关联规则的算法来实现,为了解决业务问题,我又重新复习了一遍以前就学过的Apriori算法并将其运用到业务场景中。下面,我想谈一谈在具体的业务实现过程中我的一些感想。   一....

婷婷糖 发表了文章 • 2017-08-05 20:34

3
推荐
1792
浏览

用R语言开始量化投资

前言做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不...

张丹 发表了文章 • 2017-05-22 13:08

1
推荐
1842
浏览

数据分析,R还是Python?真的是个问题么?

R和Python作为数据分析的两大主流语言,究竟哪一个更好的争论不绝于耳。但对于两个语言都了解尝试过的小伙伴而言,结论其实非常简单:都好但都有不好。下面从几个方面聊聊我的看法。开发目的据我近期的观察了解,...

张土豆 发表了文章 • 2017-05-17 18:05

3
推荐
1563
浏览

绪论:第一个机器学习样例

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这...

射命丸咲 发表了文章 • 2017-05-17 09:54

0
推荐
1046
浏览

R语言图表美化——巧用分面表达优化图表布局,做出堪比杂志级视觉体验的商务图表

图表的优化布局在Excel中一直都是个大难题,难在Excel软件固有的限制。特别是在制作多序列多分类图表的时候,放在一个图中显得序列过于拥挤,影响视觉效果,做出分面表达又耗时费力,需要掌握诸多技巧,(版式设...

EasyCharts 发表了文章 • 2017-05-12 10:43

2
推荐
1880
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

0
推荐
1150
浏览

机器学习入门算法:从线性模型到神经网络

段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测分析(predictive analysis)和人工智能(artificial intelligence)的上下文中)。几十年来,机器学习实际上已经变成了一门独立的...

天善智能 发表了文章 • 2017-04-27 11:13

1
推荐
1070
浏览

简单的文本可视化—词云

 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,...

王亨 发表了文章 • 2017-04-06 13:56

10
推荐
2434
浏览

数据可视化实践之美(开篇)

开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。随着DT时代的到来,传统的统计图表很难对复杂数据进行...

谢佳标 发表了文章 • 2017-04-06 10:17

1
推荐
955
浏览

今天来挖挖你的QQ聊天记录

今天我们用R语言来处理一下。首先来说一下我们会用到的知识:(1)正则表达式(2)中文分词(3)词频统计(4)文本可视化(5)ggplot2绘图如果你对这几地方有不懂得地方可以在文末根据 推荐阅读 点击查...

王亨 发表了文章 • 2017-04-05 14:48

1
推荐
1141
浏览

R语言构建追涨杀跌量化交易模型

前言久经股市的老股民,通常都会使用一种常见的交易策略,追涨杀跌交易法。追涨杀跌法,是股市操作的一个重要技巧,就是在股市上涨时买入股票,股市下跌时卖出股票。如果操作得当是很好的赢利手段,在中国股市201...

张丹 发表了文章 • 2017-03-21 14:14

2
推荐
1093
浏览

R语言构建配对交易量化模型

前言散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大...

张丹 发表了文章 • 2017-03-21 14:09

2
推荐
1193
浏览

R语言地图可视化之——移花接木

本文所使用的代码是之前一篇关于航线图的数据,之所以要从新写一遍,是为了让大家体会借助在线地图制作地图可视化在代码效率上的便利(当然,也会有损失,你不能像操纵shapefile那样对地图的细节元素进行自定义了...

EasyCharts 发表了文章 • 2017-02-27 11:35

0
投票
0
回答
679
浏览
0
投票
3
回答
762
浏览
0
投票
0
回答
889
浏览
0
投票
0
回答
447
浏览
0
投票
0
回答
605
浏览
0
投票
0
回答
510
浏览
0
推荐
60
浏览

成为数据分析师要掌握的统计知识(进阶版)

阅读指南:总体均值和比例的统计推断总体方差的统计推断总体均值和比例的统计推断其实数据分析更多情况是两个总体的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比...

DataFrog 发表了文章 • 2019-08-28 18:39

0
推荐
60
浏览

成为数据分析师要掌握的统计学知识(基础版)

阅读路线:概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验概率介绍概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通...

DataFrog 发表了文章 • 2019-08-28 18:37

1
推荐
222
浏览

大数据时代 传统统计学依然是数据分析的灵魂

引言:在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?来源|中文互联网数据研究咨询中心清华大学统计学研究中心前不久成立,著名统计...

企业数据化管理 发表了文章 • 2019-08-23 11:17

0
推荐
123
浏览

机器学习札记3——《统计学习方法》第一章(2)

模型评估和选择训练误差和测试误差假设学习模型是,训练误差是模型关于训练数据集的平均损失:其中N是训练样本的容量训练误差是关于数据集的平均损失:其中当损失函数是0-1损失时,测试误差就变成了常见的测试数...

皮大大 发表了文章 • 2019-08-10 13:07

1
推荐
704
浏览

浅谈正态分布检验

正态分布是我们经常听到的一个名词,又叫高斯分布,许多模型或算法都要求数据服从正态分布,比如:pearson相关系数、线性回归等。样子如下:plot(density(rnorm(1000000))) # R语言代码关于正态分布的详细介绍可...

okajun 发表了文章 • 2019-01-12 20:44

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


gw9hf5 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

  统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括:

生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)