统计学

统计学

0
推荐
79
浏览

如何写出整洁规范的R代码?是时候讨论一下代码规范性了

作者:鲁伟,热爱数据,坚信数据技术和代码改变世界。R语言和Python的忠实拥趸,为成为一名未来的数据科学家而奋斗终生。个人公众号:机器学习实验室 (微信ID:louwill12)接触 R 语言快两年时间了,多少也...

R语言中文社区 发表了文章 • 2 天前

0
推荐
83
浏览

R语言爱好者必备——R语言速查表(高清版可下载)

前不久,一位R语言初学者,在后台留言说有没有R语言速查表,小编正好有几张高清大图,所以今天分享给各位。小伙伴们可以在本公众号后台回复速查表获取高清版PDF。END    

R语言中文社区 发表了文章 • 2 天前

0
推荐
69
浏览

R_差值_拟合_回归_样条

作者:李誉辉 四川大学在读研究生  1 概念辨析因为误差的存在,很多时候,直接对数据点进行连线没有意义,不能清楚的反映其中的变量关系,这时候就需要数据拟合或者线性回归,现实中,很多人...

R语言中文社区 发表了文章 • 2 天前

0
推荐
35
浏览

数据科学之——大数据体系

作者:MarsJ,大数据玩家,R语言中文社区作者1 浅谈数据科学数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。...

R语言中文社区 发表了文章 • 2 天前

0
推荐
20
浏览

python求矩阵中两两行向量间距离:pdist 的vector-form distance vector 和 square-form distance matrix

import numpy as np from scipy.spatial.distance import pdist, squareform points = np.array([[0,1],[1,1],[3,5], [15, 5]]) points一行是一个observation,一列是一个维度 去冗余的向量形距离: dist = pdis...

safa 发表了文章 • 2 天前

1
推荐
66
浏览

【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

作者:苏格兰折耳喵个人公众号: 运营喵是怎样炼成的温馨提示:图片显示毛糙和不清楚,是分辨率过高的缘故,点击图片,即可看到高清大图楔子近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国...

Python爱好者社区 发表了文章 • 2 天前

3
推荐
215
浏览

R语言实战:个人贷款违约预测模型

一、项目背景本项目使用R语言对银行的个人金融业务数据进行分析,以对个人贷款是否违约进行预测。帮助业务部门及时发现问题,以避免损失。二、数据说明本项目数据集来自《数据科学实战:Python篇》。数据集包含8...

花花_Angel 发表了文章 • 6 天前

0
推荐
161
浏览

一个敲有趣的R语言拼图工具

作者简介杜雨,EasyCharts团队成员,R语言中文社区专栏作者,兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。个人公众号:数据小魔方(微信ID:datamofang) ,“数据小魔方”创始人。&nbs...

R语言中文社区 发表了文章 • 6 天前

0
推荐
48
浏览

机器学习算法优缺点对比及选择(汇总篇)

作者:杜博亚  知乎专栏机器学习知识点作者本文知乎链接:https://zhuanlan.zhihu.com/p/46831267本文的目的,是务实、简洁地盘点一番当前机器学习算法。文中内容结合了个人在查阅资料过程中收集到的前人总...

人工智能爱好者社区 发表了文章 • 6 天前

0
推荐
36
浏览

【机器学习】无监督学习

作者:水奈樾  人工智能爱好者博客专栏:http://www.cnblogs.com/rucwxb/众所周知,机器学习的训练数据之所以非常昂贵,是因为需要大量人工标注数据。autoencoder可以输入数据和输出数据维度相同,这样...

人工智能爱好者社区 发表了文章 • 6 天前

1
推荐
128
浏览

降维与度量学习

K近邻学习K近邻学习简称knn,是一种常用的监督学习方法,其工作机制简单,给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测,通常在分类任务中可使用投票...

韩冰冰 发表了文章 • 2018-11-01 19:30

1
推荐
407
浏览

R与Python手牵手:数据探索性分析案例展示

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com通常,我们拿到一份数据不能马上分析,...

R语言中文社区 发表了文章 • 2018-10-31 21:35

0
推荐
285
浏览

R与Python手牵手:数据的分组排序

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com这次介绍如何在Python与R中进行表格数...

R语言中文社区 发表了文章 • 2018-10-31 21:06

0
推荐
322
浏览

R与Python手牵手:数据框的构建、读取与基本描述

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com任务目标这次任务目标是:1.在编程环境...

R语言中文社区 发表了文章 • 2018-10-31 21:00

条新动态, 点击查看
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大... 显示全部 »
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark
BAO胖子

BAO胖子 回答了问题 • 2016-06-20 16:09 • 3 个回复 不感兴趣

如何发现用电量异常单位?

赞同来自:

用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死... 显示全部 »
用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死,火电贵的要命,所以丰水期多生产,枯水期少生产,这个也有季节规律。所以你弄16个月做基础数据做递推这个套路似乎就有问题。通常用灰色模型,winter模型等有一定季节规律的模型算稍微靠谱一些,而且怎么也得弄3年以上数据。
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Ti... 显示全部 »
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Tibshirani,是统计学习的入门级读物(英文的,这两位教授也是Standford的教授,Stanford上有相关的教学视频),同时此书也是经典著作《Elements of Statistical Learning》简称ESL的入门版;3、《统计学习方法》——李航,干货很多,有数学推导,难度适中,中文。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3... 显示全部 »
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal  components ).
使用R语言
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,建议用该方法。
okajun

okajun 回答了问题 • 2016-07-20 16:56 • 1 个回复 不感兴趣

统计学本科生初学BI,求各位大神指点一二

赞同来自:

我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖... 显示全部 »
我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖求助~
关于BI,学院上有个视频介绍,免费的
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
liliwu

liliwu 回答了问题 • 2016-11-04 16:43 • 2 个回复 不感兴趣

关于中位数

赞同来自:

要排序的哥
要排序的哥
marxsong

marxsong 回答了问题 • 2016-12-21 11:18 • 1 个回复 不感兴趣

关于数据成绩的问题,遇以下问题

赞同来自:

有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最... 显示全部 »
有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最终成绩进行预测,也可以使用回归树模型、神经网络模型、随机森林等等
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,... 显示全部 »
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,微积分和线性代数更没啥用处。其实如果只是做表哥表姐的话统计学都没啥用处,哈哈
 
 
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
高阔

高阔 回答了问题 • 2018-10-08 17:26 • 3 个回复 不感兴趣

tableau 如何实现列标题转成一行?

赞同来自:

也可以点击  行列切换  按钮,推荐课程:Tableau数据分析实战 https://edu.hellobi.com/course/88
也可以点击  行列切换  按钮,推荐课程:Tableau数据分析实战 https://edu.hellobi.com/course/88
3
推荐
1345
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
843
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

5
推荐
1249
浏览

关联规则R语言实战(Apriori算法)

  最近遇到一个业务问题需要用关联规则的算法来实现,为了解决业务问题,我又重新复习了一遍以前就学过的Apriori算法并将其运用到业务场景中。下面,我想谈一谈在具体的业务实现过程中我的一些感想。   一....

婷婷糖 发表了文章 • 2017-08-05 20:34

3
推荐
1139
浏览

用R语言开始量化投资

前言做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不...

张丹 发表了文章 • 2017-05-22 13:08

1
推荐
1091
浏览

数据分析,R还是Python?真的是个问题么?

R和Python作为数据分析的两大主流语言,究竟哪一个更好的争论不绝于耳。但对于两个语言都了解尝试过的小伙伴而言,结论其实非常简单:都好但都有不好。下面从几个方面聊聊我的看法。开发目的据我近期的观察了解,...

张土豆 发表了文章 • 2017-05-17 18:05

3
推荐
1018
浏览

绪论:第一个机器学习样例

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这...

射命丸咲 发表了文章 • 2017-05-17 09:54

0
推荐
560
浏览

R语言图表美化——巧用分面表达优化图表布局,做出堪比杂志级视觉体验的商务图表

图表的优化布局在Excel中一直都是个大难题,难在Excel软件固有的限制。特别是在制作多序列多分类图表的时候,放在一个图中显得序列过于拥挤,影响视觉效果,做出分面表达又耗时费力,需要掌握诸多技巧,(版式设...

EasyCharts 发表了文章 • 2017-05-12 10:43

2
推荐
1072
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

0
推荐
637
浏览

机器学习入门算法:从线性模型到神经网络

段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测分析(predictive analysis)和人工智能(artificial intelligence)的上下文中)。几十年来,机器学习实际上已经变成了一门独立的...

天善智能 发表了文章 • 2017-04-27 11:13

1
推荐
657
浏览

简单的文本可视化—词云

 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,...

王亨 发表了文章 • 2017-04-06 13:56

10
推荐
1921
浏览

数据可视化实践之美(开篇)

开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。随着DT时代的到来,传统的统计图表很难对复杂数据进行...

谢佳标 发表了文章 • 2017-04-06 10:17

1
推荐
712
浏览

今天来挖挖你的QQ聊天记录

今天我们用R语言来处理一下。首先来说一下我们会用到的知识:(1)正则表达式(2)中文分词(3)词频统计(4)文本可视化(5)ggplot2绘图如果你对这几地方有不懂得地方可以在文末根据 推荐阅读 点击查...

王亨 发表了文章 • 2017-04-05 14:48

1
推荐
731
浏览

R语言构建追涨杀跌量化交易模型

前言久经股市的老股民,通常都会使用一种常见的交易策略,追涨杀跌交易法。追涨杀跌法,是股市操作的一个重要技巧,就是在股市上涨时买入股票,股市下跌时卖出股票。如果操作得当是很好的赢利手段,在中国股市201...

张丹 发表了文章 • 2017-03-21 14:14

2
推荐
653
浏览

R语言构建配对交易量化模型

前言散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大...

张丹 发表了文章 • 2017-03-21 14:09

2
推荐
699
浏览

R语言地图可视化之——移花接木

本文所使用的代码是之前一篇关于航线图的数据,之所以要从新写一遍,是为了让大家体会借助在线地图制作地图可视化在代码效率上的便利(当然,也会有损失,你不能像操纵shapefile那样对地图的细节元素进行自定义了...

EasyCharts 发表了文章 • 2017-02-27 11:35

0
投票
3
已解决
294
浏览
0
投票
0
回答
540
浏览
0
投票
0
回答
231
浏览
0
投票
0
回答
350
浏览
0
投票
0
回答
263
浏览
推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


gw9hf5 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

0
推荐
251
浏览

描述性统计及EXCEL、Minitab练习

描述统计就是用表格、图形和数值方法来汇总数据,本文根据《商务与经济统计》第二、三章内容,进行总结并练习得来(可能图表会有点丑)。为知笔记 http://d97f6ea3.wiz03.com/share/s/3pvSWz0Bgk2X2KohY50WU...

alice_qc 发表了文章 • 2018-07-22 15:02

0
推荐
145
浏览

p-value记忆

1. p-value是假设检验中判断假设是否成立的一个判断条件。好人=假设 H0坏人=假设H12. 假设检验的思想:不是好人就是坏人。即,如果H0不成立,H1成立。如果H0成立,H1不成立。3. p-value:是误杀好人的可能。弃真...

safa 发表了文章 • 2018-07-03 10:57

  统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括:

生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)