统计之都

专业、人本、正直的中国统计学门户网站

0
推荐
1175
阅读

我们为什么需要数据分析师?

说到这两年最火的词:人工智能、大数据、机器学习、神经网络...新技术革新逐渐渗透进各行各业,与行业进步甚至日常工作的联系愈加深厚。自然,新技术需要新人才。近年来随着行业的呼声,逐渐衍生出的越来越多的新职位,今天小编就来介绍其中的一位       “数据分析师”。本文源自小编在《麻省理工斯...

发表了文章 • 2018-01-09 14:22 • 0 条评论

0
推荐
2526
阅读

基于深度学习和迁移学习的识花实践

深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件。不过TensorFlow和Keras等框架的出现大大降低了编程的复杂度,而迁移学习的思想也允许我们利用现有的模型加上少量数据和训练时间,取得不俗的效果。这篇文章将示范如何...

发表了文章 • 2017-12-06 14:39 • 1 条评论

4
推荐
1622
阅读

漫谈条形图

作者:黄湘云中国矿业大学(北京)理学院 2015 级硕士,从时间序列分析课程接触 R 语言,对数据分析和可视化乐此不疲,也喜欢看《红楼梦》,目前主要学习空间广义线性混合效应模型及其应用。李宇轩人大统院本科生,爱看书(从小喜欢),爱音乐(多听不多唱)、爱运动(玩和看都爱),很喜欢旅游(尤其一人游),虽然现在...

发表了文章 • 2017-12-06 11:49 • 0 条评论

0
推荐
1963
阅读

数据通灵术之爬虫技巧

俗话说"巧妇难为无米之炊"。如果你是一个数据忍者,却因为没有数据而烦恼,这卷"数据通灵术"或许是你需要的。首先你要看透术名那华丽的外衣,它的真面目是:爬虫技巧。此卷通灵术包含了爬虫的基础入门术,动态加载破解术,登陆破解术,以及额外赠送的手机APP爬取篇。作者简介杜亚磊,掉入R坑有多年,如今回首已惘然;也...

发表了文章 • 2017-12-06 11:21 • 0 条评论

0
推荐
1741
阅读

为什么统计学家也应该学学 TensorFlow

先啰嗦一句:本文的标题和内容牵涉到 TensorFlow,只是因为它是可用的工具之一,我相信很多其他的框架都可以做到文中我想要实现的功能。我自己并没有工具上的偏好,所以就当是拿 TensorFlow 举一个例子。对于学统计做统计的人来说,这可能是最好的时代,也可能是最坏的时代。好的地方我就不多说了,基本...

发表了文章 • 2017-08-29 15:57 • 0 条评论

0
推荐
1591
阅读

Julia 中的分布式计算

引子Julia 是一门相对比较新的着眼于科学计算的语言,语法上看起来有点类似于 Matlab 的脚本语言,但是实际上从 Ruby、Python、Lisp 之类的语言里吸收了许多有趣的特性。在这篇文章中,我想介绍一下 Julia 的分布式计算机制,它方便的并行和分布式计算的能力,结合优质的数值计算能力,其实让它非常方便用于做分布...

发表了文章 • 2017-08-22 13:46 • 0 条评论

0
推荐
1626
阅读

十行代码预测插旗西雅图(下)

数据提取和处理确定建模目标数据提取需要服务于建模的目的,即这个模型回答了什么问题。 在开篇我就提了这次建模的目标是纯粹通过英雄选择,来预测比赛胜负,所以建模数据中的一条记录就是一场比赛。 而一条记录的具体内容就是天辉5名玩家和夜魇5名玩家,每人在这场比赛里选择的英雄,和最终的比赛结果。 因为一场比赛的...

发表了文章 • 2017-06-12 15:46 • 0 条评论

1
推荐
1777
阅读

十行代码预测插旗西雅图(上)

背景故事我错了,我承认我是标题党,怎么可能用十行代码完成 Dota2 比赛数据的抓取, 清洗与预测建模呢。 不过为了发扬继承郎大为“十行代码”系列的优良传统,我决定沿用这个名字,希望能把品牌做大做强,走出亚洲,面向世界。。。事情的起因是这样的:上周与同为信仰粉的大为接上头之后,被安利了一个叫 RDota2...

发表了文章 • 2017-06-12 15:30 • 0 条评论

3
推荐
3163
阅读

Bandit算法与推荐系统

导语推荐系统里面有两个经典问题:EE问题和冷启动问题。前者涉及到平衡准确和多样,后者涉及到产品算法运营等一系列东西。bandit算法是一种简单的在线学习算法,常常用于尝试解决这两个问题,本文为你介绍基础的bandit算法及一系列升级版,以及对推荐系统这两个经典问题的思考。1.什么是bandit算法1.1 为选择而生我们会...

发表了文章 • 2017-06-06 14:07 • 0 条评论

0
推荐
2369
阅读

【主站更新】聊聊 R 和 GPU

注:本文来自寇强的博客,原文请见 http://thirdwing.github.io/2013/09/27/rgpu/  。寇强:现为 Indiana University PhD in Informatics。微博:@没故事的生科男。这是一直想写几句的一个话题,既然今天有时间就聊一聊。GPGPU 算是近几年兴起的一个领域,以 CUDA 为代表,在高性能计算方面成果相当多。作为一种相...

发表了文章 • 2017-05-15 11:44 • 0 条评论

1
推荐
2307
阅读

失联航班搜救中的统计数据分析

大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策?请看下文。引子“MH370”作为航班代码,是近日震惊世界的马来西亚航空公司客机失去联络事件(后简称“马航事件”)留给公众最深刻的数字印象。时至今日,有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间,MH370航班的...

发表了文章 • 2017-05-12 11:12 • 0 条评论

0
推荐
1911
阅读

嘿,朋友,抢红包了吗?

如果你有一台智能手机,如果你装了一个名叫微信的软件,那么你今年的春节很可能是在下面这样的场景中度过的(图片来自微信群):这也使得众多的网络大V发出了下面的感慨:而最近几天不少微信群里面又流行起来一种“红包接力”的玩法,大概的规则是:群里面先由一人发一个红包,然后大家开始抢,其中金额最大的那个人继续发...

发表了文章 • 2017-05-11 14:53 • 0 条评论

0
推荐
1880
阅读

xgboost: 速度快效果好的boosting模型

引言在数据分析的过程中,我们经常需要对数据建模并做预测。在众多的选择中,randomForest,gbm和glmnet 是三个尤其流行的R包,它们在Kaggle的各大数据挖掘竞赛中的出现频率独占鳌头,被坊间人称为R数据挖掘包中的三驾马车。根据我的个人经验,gbm包比同样是使用树模型的randomForest包占用的内存更少,同时训练速度...

发表了文章 • 2017-05-11 14:37 • 0 条评论

0
推荐
1881
阅读

用R测量灯泡的体积

缘起谈起测量灯泡体积,大家一定记得那个耳熟能详的故事。相传爱迪生发明灯泡的时候,让他的助手阿普顿测量一个灯泡的体积。助手用尺子进行了反复测量,并列出很很多公式,算了很久还没有算出来。爱迪生见罢,拿起那只灯泡,注满水后用量桶测出了体积。助手看了之后幡然醒悟,爱迪生主角光环大亮,随后开示了“不要钻牛角...

发表了文章 • 2017-05-11 14:19 • 0 条评论

2
推荐
3106
阅读

使用ggtree实现进化树的可视化和注释

本文作者:余光创,目前就读于香港大学公共卫生系,开发过多个R/Bioconductor包,包括ChIPseeker, clusterProfiler, DOSE,ggtree,GOSemSim和ReactomePA。进化树看起来和层次聚类很像。有必要解释一下两者的一些区别。层次聚类的侧重点在于分类,把距离近的聚在一起。而进化树的构建虽然也可以说是一个聚类过程,但侧重...

发表了文章 • 2017-05-10 09:47 • 0 条评论