统计学

统计学

0
投票
0
回答
2431
浏览
0
投票
4
已解决
7027
浏览
0
投票
1
回答
2718
浏览
2
推荐
2366
浏览

第一本 ECharts 数据可视化书籍出版了!

我的第一本书终于出版了,书名叫做《ECharts数据可视化:入门、实战与进阶》,目前在当当、京东已经上架,可购买学习!什么是EChartsECharts,为Enterprise Charts的缩写,是一种商业级数据图表。作为百度的一个...

ID王大伟 发表了文章 • 2020-12-28 11:42

0
推荐
1524
浏览

R语言将大型Excel文件转为dta格式

作者:Economicoder微信公众号:数据学徒本文以2000年度我国工业企业数据库为例,该文件后缀名为xlsx,包含约16万条记录,文件有88M这么大。直接使用Excel打开都费劲:等待时间久,电脑风扇呼呼呼作响。如果尝试...

Economicoder 发表了文章 • 2020-12-26 14:33

0
推荐
2644
浏览

centos以rpm安装cudnn

https://developer.nvidia.com/rdp/cudnn-archivethanks to:494150793@qq.com &j534s073J登录下载CentOS and Red Hat Linux# installing sudo rpm -ivh libcudnn7-7.6.5.32-1.cuda10.0.x86_64.rpm sudo # Upd...

safa 发表了文章 • 2020-12-18 10:18

0
推荐
1972
浏览

pytesseract安装,中文识别OCR

网上搜一堆解决问题的文章都没用1. 安装 pytesseractpip install pytesseract跑python识别程序,下列语句会报错pytesseract.image_to_string(Image.open(filename))报错:Error opening data file /usr/local/sha...

safa 发表了文章 • 2020-12-10 14:04

0
推荐
1287
浏览

UltraEdit打开文件的编码显示

一般Unicode指UTF-16打开UTF-8,用UFT-16编辑,保存还是UTF-8状态:ASCII  编码文件显示     DOS或UNIXUTF-8 编码文件显示为  U8-DOS或U8-UNIXUTF-16编码文件显示为 U-DOS 或U-UNIX原文...

safa 发表了文章 • 2020-11-30 16:11

0
推荐
2293
浏览

python在windows上使用multiprocessing Pool要运行在if __name__=="__main__"

解释见 https://blog.csdn.net/qq_26442553/article/details/94595715原文如下:1.执行一个python的multiprocessing.Pool进程池程序,实现多进程程序,代码如下,结果在windows下执行报错,但是在linux和uni...

safa 发表了文章 • 2020-11-27 19:25

0
推荐
941
浏览

震惊!一行python代码找个人工智能女朋友!

print('\u60f3\u5f97\u7f8e')

safa 发表了文章 • 2020-11-27 16:23

0
推荐
1004
浏览

centos 安装opencv

 pip install opencv-python  --default-timeout 1000 -i https://pypi.mirrors.ustc.edu.cn/simple/

safa 发表了文章 • 2020-11-11 09:51

条新动态, 点击查看
liliwu

liliwu 回答了问题 • 2016-04-26 22:56 • 3 个回复 不感兴趣

简单线性回归 公式问题

赞同来自:

16738

16737
 
16738

16737
 
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
即使仅有方差和均值,你还是可以做t检验的方差分析的,查看公式就知道了,公式最后也是样本均值,方差和样本容量。通过比较,你可以得到各个组别之间的均值是否有显著差异。但唯一的问题可能在于你的样本量比较少。
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大... 显示全部 »
支持向量机做分类的数据量跟你的分类目标和对象有关。做分类本身不是数据量这一个指标所衡量的。
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark
BAO胖子

BAO胖子 回答了问题 • 2016-06-20 16:09 • 3 个回复 不感兴趣

如何发现用电量异常单位?

赞同来自:

用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死... 显示全部 »
用电量和季节相关性极大,你想想商业用电,夏天开空调,和秋天啥也不开,耗电量能一样吗?即使是居民用电,夏天频繁洗澡,天天开空调,和其他季节也有很大不同。而耗电量巨大的比如冶金,制糖这种企业,按照季节的产销也有一定规律,南方用电北方用电价格差异很大,水电便宜的要死,火电贵的要命,所以丰水期多生产,枯水期少生产,这个也有季节规律。所以你弄16个月做基础数据做递推这个套路似乎就有问题。通常用灰色模型,winter模型等有一定季节规律的模型算稍微靠谱一些,而且怎么也得弄3年以上数据。
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Ti... 显示全部 »
1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版;
2、《Introduction to Statistical Learnign》简称ISL——Trevor Hastie/Robert Tibshirani,是统计学习的入门级读物(英文的,这两位教授也是Standford的教授,Stanford上有相关的教学视频),同时此书也是经典著作《Elements of Statistical Learning》简称ESL的入门版;3、《统计学习方法》——李航,干货很多,有数学推导,难度适中,中文。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3... 显示全部 »
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确. 

产生原因: 1 变量相关的共同趋势;2 滞后变量的引入; 3 样本资料的限制

消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal  components ).
使用R语言
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,建议用该方法。
okajun

okajun 回答了问题 • 2016-07-20 16:56 • 1 个回复 不感兴趣

统计学本科生初学BI,求各位大神指点一二

赞同来自:

我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖... 显示全部 »
我也是统计学专业的,刚毕业啥都不会,恩,现在毕业4年了,还是啥都不会~
你这是与业务有关的,所以建议从感觉入手,你感觉哪方面可以作为切入点,就对这个切入点进行分析,其实也就是看看数据情况啥的,说实话,大学学的那点东西远远不够,你可以针对具体问题的实现方法来发帖求助~
关于BI,学院上有个视频介绍,免费的
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
检验类,回归类,以及方法所适应的环境;
更重要的是:学校学的知识只是书本知识,即使再贴近实际,所学知识只是一个理论铺垫或者架构。在实际业务中所用到的统计方法,是无法预知的,保持一颗学习的态度就好,当然了,前期的理论铺垫要理解,起码的理论机理要弄明白。
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析
liliwu

liliwu 回答了问题 • 2016-11-04 16:43 • 2 个回复 不感兴趣

关于中位数

赞同来自:

要排序的哥
要排序的哥
marxsong

marxsong 回答了问题 • 2016-12-21 11:18 • 1 个回复 不感兴趣

关于数据成绩的问题,遇以下问题

赞同来自:

有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最... 显示全部 »
有几个问题需要明确一下:
1、最终成绩是什么变量,是等级的还是连续型的?
2、各指标的数据类型?
3、做模型的时候是否需要归一化?
4、之前涉及到一个变量选择问题,可以参照一些方法;
5、可以用多元回归模型,如用step函数进行模型选择;
6、另外,如果是对最终成绩进行预测,也可以使用回归树模型、神经网络模型、随机森林等等
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
之前的文章详细讨论了各种相关系数和对应在SPSS上的操作,可以参考:
https://ask.hellobi.com/blog/wetalkdata/5308
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,... 显示全部 »
看个人发展方向,如果是做分析的话统计学懂一些就好了, 如果真想做算法的话才去研究比较深的东西
 
不过说实在的,你是学生还是在职啊?要是学生的话好好学基础课,尽早去实习一下比啥都管用。要是在职的话,即使做算法,会调包就好了,真的不需要去啃什么书,没啥用处的,微积分和线性代数更没啥用处。其实如果只是做表哥表姐的话统计学都没啥用处,哈哈
 
 
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
这个不复杂吧,就是处理下结束 时间而已  结束时间等于 开始时间 + 分钟(结束时间-开始时间)*0.75
3
推荐
4281
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
3277
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

5
推荐
4884
浏览

关联规则R语言实战(Apriori算法)

  最近遇到一个业务问题需要用关联规则的算法来实现,为了解决业务问题,我又重新复习了一遍以前就学过的Apriori算法并将其运用到业务场景中。下面,我想谈一谈在具体的业务实现过程中我的一些感想。   一....

婷婷糖 发表了文章 • 2017-08-05 20:34

3
推荐
3946
浏览

用R语言开始量化投资

前言做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不...

张丹 发表了文章 • 2017-05-22 13:08

1
推荐
3800
浏览

数据分析,R还是Python?真的是个问题么?

R和Python作为数据分析的两大主流语言,究竟哪一个更好的争论不绝于耳。但对于两个语言都了解尝试过的小伙伴而言,结论其实非常简单:都好但都有不好。下面从几个方面聊聊我的看法。开发目的据我近期的观察了解,...

张土豆 发表了文章 • 2017-05-17 18:05

3
推荐
2961
浏览

绪论:第一个机器学习样例

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这...

射命丸咲 发表了文章 • 2017-05-17 09:54

0
推荐
2620
浏览

R语言图表美化——巧用分面表达优化图表布局,做出堪比杂志级视觉体验的商务图表

图表的优化布局在Excel中一直都是个大难题,难在Excel软件固有的限制。特别是在制作多序列多分类图表的时候,放在一个图中显得序列过于拥挤,影响视觉效果,做出分面表达又耗时费力,需要掌握诸多技巧,(版式设...

EasyCharts 发表了文章 • 2017-05-12 10:43

2
推荐
3951
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

0
推荐
2528
浏览

机器学习入门算法:从线性模型到神经网络

段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测分析(predictive analysis)和人工智能(artificial intelligence)的上下文中)。几十年来,机器学习实际上已经变成了一门独立的...

天善智能 发表了文章 • 2017-04-27 11:13

1
推荐
2202
浏览

简单的文本可视化—词云

 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,...

王亨 发表了文章 • 2017-04-06 13:56

10
推荐
4675
浏览

数据可视化实践之美(开篇)

开篇主要是介绍了一些常用的数据可视化工具和图表,让各位看官对数据可视化有一个较为全面的认识。后续篇章会深入介绍如何运用工具绘制精美图表的技术细节。随着DT时代的到来,传统的统计图表很难对复杂数据进行...

谢佳标 发表了文章 • 2017-04-06 10:17

1
推荐
2032
浏览

今天来挖挖你的QQ聊天记录

今天我们用R语言来处理一下。首先来说一下我们会用到的知识:(1)正则表达式(2)中文分词(3)词频统计(4)文本可视化(5)ggplot2绘图如果你对这几地方有不懂得地方可以在文末根据 推荐阅读 点击查...

王亨 发表了文章 • 2017-04-05 14:48

1
推荐
2247
浏览

R语言构建追涨杀跌量化交易模型

前言久经股市的老股民,通常都会使用一种常见的交易策略,追涨杀跌交易法。追涨杀跌法,是股市操作的一个重要技巧,就是在股市上涨时买入股票,股市下跌时卖出股票。如果操作得当是很好的赢利手段,在中国股市201...

张丹 发表了文章 • 2017-03-21 14:14

2
推荐
2880
浏览

R语言构建配对交易量化模型

前言散户每天都在经历中国股市的上蹿下跳,赚到钱是运气,赔钱是常态。那么是否有方法可以让赚钱变成常态呢?我们可以通过“统计套利”的方法,发现市场的无效性。配对交易,就统计套利策略的一种,通过对冲掉绝大...

张丹 发表了文章 • 2017-03-21 14:09

2
推荐
2714
浏览

R语言地图可视化之——移花接木

本文所使用的代码是之前一篇关于航线图的数据,之所以要从新写一遍,是为了让大家体会借助在线地图制作地图可视化在代码效率上的便利(当然,也会有损失,你不能像操纵shapefile那样对地图的细节元素进行自定义了...

EasyCharts 发表了文章 • 2017-02-27 11:35

0
投票
0
回答
2431
浏览
0
投票
0
回答
2691
浏览
0
投票
3
回答
2173
浏览
0
投票
0
回答
2139
浏览
0
投票
0
回答
1310
浏览
0
投票
0
回答
1240
浏览
0
投票
0
回答
1701
浏览
1
推荐
1216
浏览

mean median mode,均值 中位数 众数

有n个数,数值可以有重复,如: 1, 2, 2, 3, 3, 8, 9mean | 均值 | 唯一| n个数值的平均  | 1,2,2,3,3,8,9的均值是(1+2+2+3+3+8+9)/7=4 median | 中位数 | 唯一| 无论数值是否重复,都从小到大...

safa 发表了文章 • 2020-04-23 15:07

0
推荐
1414
浏览

今夜,大数据带你了解当代青年加班狗

“我累得像只狗,十八天没有卸妆,月抛带了两年半,作息紊乱,我却越来越胖,起来征战北五环。”上海彩虹室内合唱团一首《感觉身体被掏空》成为多少加班狗的内心BGM。中国加班有多疯狂?今年3月,国家统计局数据显...

企业数据化管理 发表了文章 • 2019-10-17 17:15

0
推荐
1330
浏览

成为数据分析师要掌握的统计知识(进阶版)

阅读指南:总体均值和比例的统计推断总体方差的统计推断总体均值和比例的统计推断其实数据分析更多情况是两个总体的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比...

DataFrog 发表了文章 • 2019-08-28 18:39

0
推荐
1204
浏览

成为数据分析师要掌握的统计学知识(基础版)

阅读路线:概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验概率介绍概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通...

DataFrog 发表了文章 • 2019-08-28 18:37

1
推荐
2102
浏览

大数据时代 传统统计学依然是数据分析的灵魂

引言:在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?来源|中文互联网数据研究咨询中心清华大学统计学研究中心前不久成立,著名统计...

企业数据化管理 发表了文章 • 2019-08-23 11:17

0
推荐
1190
浏览

机器学习札记3——《统计学习方法》第一章(2)

模型评估和选择训练误差和测试误差假设学习模型是,训练误差是模型关于训练数据集的平均损失:其中N是训练样本的容量训练误差是关于数据集的平均损失:其中当损失函数是0-1损失时,测试误差就变成了常见的测试数...

皮大大 发表了文章 • 2019-08-10 13:07

1
推荐
4581
浏览

浅谈正态分布检验

正态分布是我们经常听到的一个名词,又叫高斯分布,许多模型或算法都要求数据服从正态分布,比如:pearson相关系数、线性回归等。样子如下:plot(density(rnorm(1000000))) # R语言代码关于正态分布的详细介绍可...

okajun 发表了文章 • 2019-01-12 20:44

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


sny8md 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

  统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括:

生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)