统计学

统计学

0
推荐
100
浏览

67页PPT,学透机器学习算法、应用及数据处理(附下载)

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | 百度文库作为AI的重要分支,机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等诸多...

数智物语 发表了文章 • 2019-05-09 14:09

0
推荐
164
浏览

如何为你的回归问题选择最合适的机器学习方法?

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。转自 | AI算法之心(公众号ID:AIHeartForYou)作者 | 何从庆什么是回归呢?回归分析是一种预测性的建模技术,它研究的是...

数智物语 发表了文章 • 2019-04-29 14:54

0
推荐
692
浏览

R语言ETL工程:插入与合并(add/bind)

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com本章要讲的是两个内容,第一个是如何在...

R语言中文社区 发表了文章 • 2019-04-29 12:38

0
推荐
752
浏览

R网页采集:解决网页分页与网址超链接问题

作者:郑连虎,在数学学院取得理学学位的文科生,中国人民大学硕博连读生在读,山东大学管理学学士、理学学士个人公众号:阿虎定量笔记全文注释# 本期以爬取猫眼电影为例,演示在R语言网页爬虫实践中,分页网址与...

R语言中文社区 发表了文章 • 2019-04-29 12:31

0
推荐
730
浏览

数据整理—dplyr包(mutate系列)

作者:小橙子来源:小橙子学数据分析有很多成语,来形容根据一个事物,生成了另一个事物。比如:依样画葫芦、东施效颦等等(略有歧义)。而今天讲解的mutate,就类似这种情况,根据现有的信息,生成一个新的变量。d...

R语言中文社区 发表了文章 • 2019-04-29 12:21

0
推荐
214
浏览

GGally与pairs相关关系图_史上最全(一)

作者:李誉辉  四川大学在读研究生简介对于多个变量之间的相关关系,常常使用相关关系图来可视化,R自带有pairs()函数,可以画相关关系图,但是比较复杂,我们先介绍基于ggplot2的GGally包。等介绍完,...

R语言中文社区 发表了文章 • 2019-04-29 11:48

0
推荐
106
浏览

qkerntool使用说明

作者:王景灏 山东大学(威海)数学与统计学院学生说明这是一个关于以核方法为主的R包介绍,这个包包含了许多用于分类,聚类降维和可视化的非线性机器学习工具。该包使用了条件负定核(CND kernel),共集成了...

R语言中文社区 发表了文章 • 2019-04-29 11:39

0
推荐
107
浏览

R语言自然语言处理:文本分类

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com前文推送:R语言自然语言处理:中文分...

R语言中文社区 发表了文章 • 2019-04-29 11:32

0
推荐
117
浏览

专场介绍 | 第12届中国R会议(北京)

本次会议由统计之都主办,中国人民大学统计学院、中国人民大学应用统计科学研究中心、狗熊会协办,并得到 RStudio、人民邮电出版社、图灵教育、中国人民大学出版社的赞助支持以及 IT 大咖说独家视频支持。本届会...

R语言中文社区 发表了文章 • 2019-04-29 11:12

0
推荐
83
浏览

精选| 2019年3月R新包推荐

作者:Joseph Rickert翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞数据分析团队,欢迎加入!2019年3月份,233个R新包收录于CRAN(2月份收录151个,环比增加54.3%),累计收录14087个R包!此次整理了十个类别...

R语言中文社区 发表了文章 • 2019-04-29 11:10

0
推荐
195
浏览

提升机器学习数学基础,这7本书一定要读-附pdf资源

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | KDnuggets作者 | Ajit Jaokar转自 | 新智元 编辑 | 大明【编者按】机器学习和数据科学离不开数学,本文从数学...

数智物语 发表了文章 • 2019-04-26 14:20

0
推荐
164
浏览

2019年机器学习市场潜力大盘点(附27份资料完整版)

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | Forbes作者 | Louis Columbus编译整理 | 科技行者利用更深入的洞察来加强销售和市场营销,以改善客户体验,已经成为推动...

数智物语 发表了文章 • 2019-04-17 14:44

0
推荐
147
浏览

关于机器学习你知道多少呢?

一、什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标都是一样的。但是,又有...

大麦 发表了文章 • 2019-04-16 15:13

条新动态, 点击查看
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大... 显示全部 »
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark
BAO胖子

BAO胖子 回答了问题 • 2016-06-20 16:09 • 3 个回复 不感兴趣

如何发现用电量异常单位?

赞同来自:

用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死... 显示全部 »
用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死,火电贵的要命,所以丰水期多生产,枯水期少生产,这个也有季节规律。所以你弄16个月做基础数据做递推这个套路似乎就有问题。通常用灰色模型,winter模型等有一定季节规律的模型算稍微靠谱一些,而且怎么也得弄3年以上数据。
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Ti... 显示全部 »
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Tibshirani,是统计学习的入门级读物(英文的,这两位教授也是Standford的教授,Stanford上有相关的教学视频),同时此书也是经典著作《Elements of Statistical Learning》简称ESL的入门版;3、《统计学习方法》——李航,干货很多,有数学推导,难度适中,中文。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3... 显示全部 »
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal  components ).
使用R语言
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,建议用该方法。
okajun

okajun 回答了问题 • 2016-07-20 16:56 • 1 个回复 不感兴趣

统计学本科生初学BI,求各位大神指点一二

赞同来自:

我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖... 显示全部 »
我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖求助~
关于BI,学院上有个视频介绍,免费的
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
liliwu

liliwu 回答了问题 • 2016-11-04 16:43 • 2 个回复 不感兴趣

关于中位数

赞同来自:

要排序的哥
要排序的哥
marxsong

marxsong 回答了问题 • 2016-12-21 11:18 • 1 个回复 不感兴趣

关于数据成绩的问题,遇以下问题

赞同来自:

有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最... 显示全部 »
有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最终成绩进行预测,也可以使用回归树模型、神经网络模型、随机森林等等
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,... 显示全部 »
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,微积分和线性代数更没啥用处。其实如果只是做表哥表姐的话统计学都没啥用处,哈哈
 
 
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
3
推荐
1798
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1148
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

5
推荐
1774
浏览

关联规则R语言实战(Apriori算法)

  最近遇到一个业务问题需要用关联规则的算法来实现,为了解决业务问题,我又重新复习了一遍以前就学过的Apriori算法并将其运用到业务场景中。下面,我想谈一谈在具体的业务实现过程中我的一些感想。   一....

婷婷糖 发表了文章 • 2017-08-05 20:34

3
推荐
1507
浏览

用R语言开始量化投资

前言做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不...

张丹 发表了文章 • 2017-05-22 13:08

1
推荐
1543
浏览

数据分析,R还是Python?真的是个问题么?

R和Python作为数据分析的两大主流语言,究竟哪一个更好的争论不绝于耳。但对于两个语言都了解尝试过的小伙伴而言,结论其实非常简单:都好但都有不好。下面从几个方面聊聊我的看法。开发目的据我近期的观察了解,...

张土豆 发表了文章 • 2017-05-17 18:05

3
推荐
1311
浏览

绪论:第一个机器学习样例

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这...

射命丸咲 发表了文章 • 2017-05-17 09:54

0
推荐
816
浏览

R语言图表美化——巧用分面表达优化图表布局,做出堪比杂志级视觉体验的商务图表

图表的优化布局在Excel中一直都是个大难题,难在Excel软件固有的限制。特别是在制作多序列多分类图表的时候,放在一个图中显得序列过于拥挤,影响视觉效果,做出分面表达又耗时费力,需要掌握诸多技巧,(版式设...

EasyCharts 发表了文章 • 2017-05-12 10:43

2
推荐
1579
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

0
推荐
905
浏览

机器学习入门算法:从线性模型到神经网络

段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测分析(predictive analysis)和人工智能(artificial intelligence)的上下文中)。几十年来,机器学习实际上已经变成了一门独立的...

天善智能 发表了文章 • 2017-04-27 11:13

1
推荐
850
浏览

简单的文本可视化—词云

 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,...

王亨 发表了文章 • 2017-04-06 13:56

10
推荐
2195
浏览

数据可视化实践之美(开篇)

开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。随着DT时代的到来,传统的统计图表很难对复杂数据进行...

谢佳标 发表了文章 • 2017-04-06 10:17

1
推荐
841
浏览

今天来挖挖你的QQ聊天记录

今天我们用R语言来处理一下。首先来说一下我们会用到的知识:(1)正则表达式(2)中文分词(3)词频统计(4)文本可视化(5)ggplot2绘图如果你对这几地方有不懂得地方可以在文末根据 推荐阅读 点击查...

王亨 发表了文章 • 2017-04-05 14:48

1
推荐
985
浏览

R语言构建追涨杀跌量化交易模型

前言久经股市的老股民,通常都会使用一种常见的交易策略,追涨杀跌交易法。追涨杀跌法,是股市操作的一个重要技巧,就是在股市上涨时买入股票,股市下跌时卖出股票。如果操作得当是很好的赢利手段,在中国股市201...

张丹 发表了文章 • 2017-03-21 14:14

2
推荐
903
浏览

R语言构建配对交易量化模型

前言散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大...

张丹 发表了文章 • 2017-03-21 14:09

2
推荐
947
浏览

R语言地图可视化之——移花接木

本文所使用的代码是之前一篇关于航线图的数据,之所以要从新写一遍,是为了让大家体会借助在线地图制作地图可视化在代码效率上的便利(当然,也会有损失,你不能像操纵shapefile那样对地图的细节元素进行自定义了...

EasyCharts 发表了文章 • 2017-02-27 11:35

0
投票
0
回答
358
浏览
0
投票
3
回答
619
浏览
0
投票
0
回答
774
浏览
0
投票
0
回答
357
浏览
0
投票
0
回答
519
浏览
0
投票
0
回答
422
浏览
1
推荐
423
浏览

浅谈正态分布检验

正态分布是我们经常听到的一个名词,又叫高斯分布,许多模型或算法都要求数据服从正态分布,比如:pearson相关系数、线性回归等。样子如下:plot(density(rnorm(1000000))) # R语言代码关于正态分布的详细介绍可...

okajun 发表了文章 • 2019-01-12 20:44

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


gw9hf5 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

0
推荐
512
浏览

描述性统计及EXCEL、Minitab练习

描述统计就是用表格、图形和数值方法来汇总数据,本文根据《商务与经济统计》第二、三章内容,进行总结并练习得来(可能图表会有点丑)。为知笔记 http://d97f6ea3.wiz03.com/share/s/3pvSWz0Bgk2X2KohY50WU...

alice_qc 发表了文章 • 2018-07-22 15:02

  统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括:

生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)