浩彬老撕走在数据科学的路上

这里谈谈统计挖掘的一些事一些情,有理论,有算法,有实践,欢迎交流探讨!

3
推荐
1021
阅读

长文收藏|关于模型评估那些事都在这里了

本篇是合集文章,主要供各位童鞋系统学习和日后复习使用。本篇是旧篇中的“如何直观地理解过拟合与欠拟合的那些事”,“分层抽样与交叉验证”及新篇“模型性能度量那些事”的合集,如已看过旧篇的童鞋可以直接跳到第三部分。在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对...

发表了文章 • 2018-04-17 18:22 • 0 条评论

3
推荐
968
阅读

SPSS Modeler与数据库的链接查询

浩彬老撕曾经在《IBM SPSS Modeler最强工具书收藏系列(四)-数据读取奥秘》中提到怎么利用spss读取各种来源的数据,其中也重点介绍了如何通过odbc读取数据库数据。考虑到数据库的数据读取相比于其他数据复杂,本文将进一步给大家介绍SPSS Modeler与数据的链接问题。本文将使用1月份广州地区某移动监测站点PM2.5数据作为...

发表了文章 • 2018-01-17 22:47 • 0 条评论

1
推荐
1114
阅读

六行代码打造萌萌哒聊天机器人

这次分享主要是构建微信机器人和公众号机器人的接入,以及相关的资料整理,主要内容包括:快速构建微信机器人wxpy包介绍图灵机器人介绍为了说明代码有多简单,先上代码,不含注释一共六行:备注:代码中的api我做了修改处理,请输入你在图灵机器人中获取的apikeyfrom wxpy import **## 在电脑上登录网页版版微信bot = Bot...

发表了文章 • 2017-12-03 11:36 • 0 条评论

1
推荐
984
阅读

推荐资源|神经网络与深度学习

​最近深度学习越来越火......就像这些字一样,越来越火......有一天,浩彬老撕在整理团队的学习资源,发现了一本好书:这本书就是《神经网络与深度学习》更重要的是:本书作者是一位量子物理学家,有兴趣的读者可以去其主页查看更多内容:http://michaelnielsen.org/本书翻译团队是(摘自原文):Xiaohu Zhu:翻译第二、...

发表了文章 • 2017-11-28 14:53 • 0 条评论

1
推荐
719
阅读

test

点,如下图所示,分别从A点和B点出发,通过若干次后迭代后,分别落于全局最低点和局部最低点。​ 1.     关于梯度,为什么负梯度方向是下降最大方向?在正式讲解梯度之前,我们先对导数进行讨论:

发表了文章 • 2017-11-21 13:43 • 0 条评论

2
推荐
1271
阅读

如何通俗地理解决策树中的信息熵

​好,开篇之前,我们先做好定义:信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?好了,为了解决问题,让我们还是回到定义本身中来。1.信息量第一个问题:信息是什么?它是可以计算的吗?我们先从现实出发,看看信息是否有量化的可能。例如今天阿包告诉我,“广州明天的太阳会从东边升起。”这时我就想,...

发表了文章 • 2017-06-15 23:15 • 2 条评论

1
推荐
947
阅读

如何通俗地理解假设检验基本原理

假设检验的基本原理在日常的统计分析当中,我们针对所研究问题的全体对象,称之为总体。例如我们想要研究2017年大学生毕业生的薪酬水平,那么在2017年所有大学毕业生就是研究问题的总体。但事实上,假如要研究这个问题,我们并不会对该年的所有应届毕业生进行问卷调查,因为数量实在太多了!那怎么办?一般情况下,我们...

发表了文章 • 2017-06-15 23:01 • 0 条评论

0
推荐
1297
阅读

统计挖掘那些事:分层抽样与交叉验证

1留出法(Hold out)与分层抽样留出法就是咱们在上期文章介绍的进行对训练集和测试集进行的划分方法。上期内容:如何直观地理解过拟合与欠拟合那些事~留出法的意思就是直接将总数据D划分为两个对立集合,训练集S以及测试集T,我们有S+T=D,以及S交T等于空集;举个简单例子说明,例如我们在研究客户流失,在集合D中我们有...

发表了文章 • 2017-06-15 22:47 • 0 条评论

7
推荐
3309
阅读

第二版:统计分析/机器学习吐血整理最强指南

这是浩彬老撕自己的学习书单,希望能够帮助大家更好更快地理解数据科学,同时也希望继续完善自己。#关于这份学习清单#我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。Ps:这是第一...

发表了文章 • 2017-02-11 13:48 • 10 条评论

3
推荐
2656
阅读

关于偏度与峰度的一些探索

        毫无疑问,数据的集中趋势和离散趋势是数据分布的最主要两个特征。因此,我们常常会借助算术平均数,中位数,方差,四分位数等指标进行描述性的统计分析,就正如我们经常讨论的正态分布,两个参数均值和标准差正是对应了集中趋势指标和离散趋势指标。但实际上,数据的分布形态各异,很可能...

发表了文章 • 2017-02-01 01:21 • 1 条评论

10
推荐
1311
阅读

浩彬老撕的数据科学界段子手2016总结

2016年,浩彬老撕的数据科学界段子手网黑生涯“出道”了9个月时间,又一年过去了~回看2016,浩彬老撕迈出去了一些步子~(1)IBM虽然在转型阵痛,但仍然是一家伟大的公司。今年,对于自己来说不断的实践也为解决方案形成了一些有用的资产,分享给大家也能得到认可,Watson,认知计算~(2)开通了探数寻理公众号(wetalkdata...

发表了文章 • 2017-01-14 16:14 • 8 条评论

4
推荐
1227
阅读

可视化干货|可能是最好玩的像素地图

在上几期,浩彬老撕给大家介绍了一个神器,在线的云词图制作工具:干货教程|可能是最方便好用的文字云工具,其中里面有一幅设计图大家念念不忘,纷纷留言要资源~在这其中,有一小撮好学的童鞋表示想要日本老师们的教学视频,也有一部分童鞋再问怎么可以找到一些地图资源。神器:像素地图(Pixel Map)神器,像素地图(Pi...

发表了文章 • 2017-01-14 15:23 • 8 条评论

6
推荐
1431
阅读

干货教程|可能是最方便好用的文字云工具

R语言文字云教程:R语言,超级英雄云词图,你们要的自定义形状来了(附完整教程)一般来说,我们可以分为粗略调整和细节调整两个阶段。其中粗调整阶段只需要三步就基本能够把整体轮廓勾勒完毕,建立好基本形象;当然,如果对细节要求比较多,则可以在后面的细节调整阶段进一步修改,以达到最终结果。经过以上三步后,如...

发表了文章 • 2017-01-14 15:15 • 1 条评论

0
推荐
1006
阅读

如何直观地理解过拟合与欠拟合那些事~

在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规律,但是很显然地,我们的重心还是在于预测上。既然我们是在做预测,不可避免地,就存在对错的问题,就存在这预测准确率的问题。若是用了精度不够的模型,轻则可...

发表了文章 • 2017-01-14 15:04 • 0 条评论

3
推荐
2123
阅读

统计挖掘那些事——强大的逻辑回归(理论+案例)

在上期,浩彬老撕给大家介绍了非线性回归模型,解决了在现实环境中,非线性形式的问题。但是进一步地,我们的因变量也并不总是数值型变量,有可能也是分类型变量,那么对于这种问题,我们能不能也利用回归分析进行适当的扩展,使其也能够解决分类问题?答案显然也是肯定的。附回归文章整理:1.统计挖掘那些事那些情-回归...

发表了文章 • 2017-01-14 14:59 • 2 条评论