统计学

统计学

0
推荐
20
浏览

答对这些题,你也能月入5万了

9102年了,什么最贵?当然是人才?什么人才?当然是掌握了“大数据分析方法”的高精尖人才了!据小T不完全统计,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据挖掘”相关岗位平均招聘薪资高于其余同等学历...

AskTempo 发表了文章 • 3 天前

0
推荐
71
浏览

机器学习基础,回归模型评估指标

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | CrossHands作者 | AhongPlus回归模型中常用的评估指标可以分如下几类:1. MAE系列,即由Mean Absolute E...

数智物语 发表了文章 • 2019-07-12 17:16

0
推荐
92
浏览

生活札记1_毕业感悟

凤凰花开,毕业一年,走向社会,工作不易,三点感触,深有体会:PythonBilibiliMarkdownPythonPython一门编程语言,面向对象,动态类型。最近几年真的是火爆了,编程语言排行榜常年第一,应用领域也很广泛:应用...

皮大大 发表了文章 • 2019-07-04 08:24

0
推荐
91
浏览

机器学习如何从上游抑制歧视性行为?斯坦福 AI 实验室的最新成果给出了答案

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI科技评论作者 | 杨鲤萍“将控制权交到关注公平的有关方手上”随着机器学习系统越来越多地运用于许多重大决策...

数智物语 发表了文章 • 2019-07-01 15:53

0
推荐
196
浏览

卸载cuda8.0,重装nvidia显卡驱动,安装cuda10.1和cudnn

卸载 cuda (cudnn也删除)CUDA和cuDNN关系CUDA是NVIDIA的通用并行计算架构,cuDNN是深度神经网络GPU加速库,是CUDA的扩展计算库,它的插入式设计,即只要把cuDNN文件复制到CUDA的对应文件夹里,不会对CUDA造成其他...

safa 发表了文章 • 2019-06-26 16:18

0
推荐
125
浏览

Create a conda virtual environment and activate it

下载 Anaconda,官网https://www.continuum.io/downloads打不开,使用国内镜像wget http://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh安装Anacondacd # 默认装在 ~/anacon...

safa 发表了文章 • 2019-06-25 16:42

0
推荐
105
浏览

不被大神Hinton认同,否定现有同行成果,谷歌这篇烧脑研究最终拿下ICML2019最佳论文

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 晓查 栗子 安妮发自 | 凹非寺量子位 出品 | 公众号 QbitAIICML 2019最佳论文来了!今年,共有3424篇论文提交到这场...

数智物语 发表了文章 • 2019-06-24 18:25

0
推荐
110
浏览

python import 上级目录

https://blog.csdn.net/songbinxu/article/details/80289489

safa 发表了文章 • 2019-06-19 11:37

0
推荐
144
浏览

ImportError: No module named _tkinter 错误解决

问题:跑MASK RCNN代码出错 https://github.com/CharlesShang/FastMaskRCNNpython download_and_convert_data.py  错误提示:If this fails your Python may not be configured for Tk  Impo...

safa 发表了文章 • 2019-06-12 18:00

0
推荐
196
浏览

AI时代,数据挖掘过时了吗?—企业数据挖掘成功之道(理论篇)

大数据时代、人工智能时代,机器学习、人工智能、深度学习、集成学习……概念漫天飞,数据挖掘似乎成为一个过时技术和概念。今天小编结合多年专业学习与研究经验,从实践应用的角度重新梳理一下“数据挖掘”,让您能...

AskTempo 发表了文章 • 2019-06-06 16:08

0
推荐
283
浏览

67页PPT,学透机器学习算法、应用及数据处理(附下载)

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | 百度文库作为AI的重要分支,机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等诸多...

数智物语 发表了文章 • 2019-05-09 14:09

0
推荐
294
浏览

如何为你的回归问题选择最合适的机器学习方法?

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。转自 | AI算法之心(公众号ID:AIHeartForYou)作者 | 何从庆什么是回归呢?回归分析是一种预测性的建模技术,它研究的是...

数智物语 发表了文章 • 2019-04-29 14:54

0
推荐
1381
浏览

R语言ETL工程:插入与合并(add/bind)

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com本章要讲的是两个内容,第一个是如何在...

R语言中文社区 发表了文章 • 2019-04-29 12:38

条新动态, 点击查看
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大... 显示全部 »
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark
BAO胖子

BAO胖子 回答了问题 • 2016-06-20 16:09 • 3 个回复 不感兴趣

如何发现用电量异常单位?

赞同来自:

用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死... 显示全部 »
用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死,火电贵的要命,所以丰水期多生产,枯水期少生产,这个也有季节规律。所以你弄16个月做基础数据做递推这个套路似乎就有问题。通常用灰色模型,winter模型等有一定季节规律的模型算稍微靠谱一些,而且怎么也得弄3年以上数据。
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Ti... 显示全部 »
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Tibshirani,是统计学习的入门级读物(英文的,这两位教授也是Standford的教授,Stanford上有相关的教学视频),同时此书也是经典著作《Elements of Statistical Learning》简称ESL的入门版;3、《统计学习方法》——李航,干货很多,有数学推导,难度适中,中文。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3... 显示全部 »
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal  components ).
使用R语言
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,建议用该方法。
okajun

okajun 回答了问题 • 2016-07-20 16:56 • 1 个回复 不感兴趣

统计学本科生初学BI,求各位大神指点一二

赞同来自:

我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖... 显示全部 »
我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖求助~
关于BI,学院上有个视频介绍,免费的
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
liliwu

liliwu 回答了问题 • 2016-11-04 16:43 • 2 个回复 不感兴趣

关于中位数

赞同来自:

要排序的哥
要排序的哥
marxsong

marxsong 回答了问题 • 2016-12-21 11:18 • 1 个回复 不感兴趣

关于数据成绩的问题,遇以下问题

赞同来自:

有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最... 显示全部 »
有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最终成绩进行预测,也可以使用回归树模型、神经网络模型、随机森林等等
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,... 显示全部 »
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,微积分和线性代数更没啥用处。其实如果只是做表哥表姐的话统计学都没啥用处,哈哈
 
 
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
3
推荐
1966
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1260
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

5
推荐
1907
浏览

关联规则R语言实战(Apriori算法)

  最近遇到一个业务问题需要用关联规则的算法来实现,为了解决业务问题,我又重新复习了一遍以前就学过的Apriori算法并将其运用到业务场景中。下面,我想谈一谈在具体的业务实现过程中我的一些感想。   一....

婷婷糖 发表了文章 • 2017-08-05 20:34

3
推荐
1645
浏览

用R语言开始量化投资

前言做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不...

张丹 发表了文章 • 2017-05-22 13:08

1
推荐
1670
浏览

数据分析,R还是Python?真的是个问题么?

R和Python作为数据分析的两大主流语言,究竟哪一个更好的争论不绝于耳。但对于两个语言都了解尝试过的小伙伴而言,结论其实非常简单:都好但都有不好。下面从几个方面聊聊我的看法。开发目的据我近期的观察了解,...

张土豆 发表了文章 • 2017-05-17 18:05

3
推荐
1426
浏览

绪论:第一个机器学习样例

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这...

射命丸咲 发表了文章 • 2017-05-17 09:54

0
推荐
908
浏览

R语言图表美化——巧用分面表达优化图表布局,做出堪比杂志级视觉体验的商务图表

图表的优化布局在Excel中一直都是个大难题,难在Excel软件固有的限制。特别是在制作多序列多分类图表的时候,放在一个图中显得序列过于拥挤,影响视觉效果,做出分面表达又耗时费力,需要掌握诸多技巧,(版式设...

EasyCharts 发表了文章 • 2017-05-12 10:43

2
推荐
1724
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

0
推荐
1015
浏览

机器学习入门算法:从线性模型到神经网络

段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测分析(predictive analysis)和人工智能(artificial intelligence)的上下文中)。几十年来,机器学习实际上已经变成了一门独立的...

天善智能 发表了文章 • 2017-04-27 11:13

1
推荐
953
浏览

简单的文本可视化—词云

 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,...

王亨 发表了文章 • 2017-04-06 13:56

10
推荐
2309
浏览

数据可视化实践之美(开篇)

开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。随着DT时代的到来,传统的统计图表很难对复杂数据进行...

谢佳标 发表了文章 • 2017-04-06 10:17

1
推荐
895
浏览

今天来挖挖你的QQ聊天记录

今天我们用R语言来处理一下。首先来说一下我们会用到的知识:(1)正则表达式(2)中文分词(3)词频统计(4)文本可视化(5)ggplot2绘图如果你对这几地方有不懂得地方可以在文末根据 推荐阅读 点击查...

王亨 发表了文章 • 2017-04-05 14:48

1
推荐
1057
浏览

R语言构建追涨杀跌量化交易模型

前言久经股市的老股民,通常都会使用一种常见的交易策略,追涨杀跌交易法。追涨杀跌法,是股市操作的一个重要技巧,就是在股市上涨时买入股票,股市下跌时卖出股票。如果操作得当是很好的赢利手段,在中国股市201...

张丹 发表了文章 • 2017-03-21 14:14

2
推荐
995
浏览

R语言构建配对交易量化模型

前言散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大...

张丹 发表了文章 • 2017-03-21 14:09

2
推荐
1056
浏览

R语言地图可视化之——移花接木

本文所使用的代码是之前一篇关于航线图的数据,之所以要从新写一遍,是为了让大家体会借助在线地图制作地图可视化在代码效率上的便利(当然,也会有损失,你不能像操纵shapefile那样对地图的细节元素进行自定义了...

EasyCharts 发表了文章 • 2017-02-27 11:35

0
投票
0
回答
512
浏览
0
投票
3
回答
690
浏览
0
投票
0
回答
839
浏览
0
投票
0
回答
409
浏览
0
投票
0
回答
569
浏览
0
投票
0
回答
477
浏览
1
推荐
573
浏览

浅谈正态分布检验

正态分布是我们经常听到的一个名词,又叫高斯分布,许多模型或算法都要求数据服从正态分布,比如:pearson相关系数、线性回归等。样子如下:plot(density(rnorm(1000000))) # R语言代码关于正态分布的详细介绍可...

okajun 发表了文章 • 2019-01-12 20:44

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


gw9hf5 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

0
推荐
578
浏览

描述性统计及EXCEL、Minitab练习

描述统计就是用表格、图形和数值方法来汇总数据,本文根据《商务与经济统计》第二、三章内容,进行总结并练习得来(可能图表会有点丑)。为知笔记 http://d97f6ea3.wiz03.com/share/s/3pvSWz0Bgk2X2KohY50WU...

alice_qc 发表了文章 • 2018-07-22 15:02

  统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括:

生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)