夏尔康

新人一枚的数据分析师,写写博客,交流学习

7
推荐
1820
阅读

推荐一本机器学习很好的书-《统计学习方法》

这里就不贴资源了,涵盖了大部分机器的学习算法,图文并茂,并且用简答的实例来还原求解过程,是一本较为容易看得懂的书

发表了文章 • 2016-06-06 18:09 • 4 条评论

5
推荐
3239
阅读

常用聚类算法之一k-means实例解析

    学过聚类分析的朋友应该都认识K-MEANS算法吧,这是个无监督学习算法;也就是说事先并没有对样本进行标记,需要通过算法来自动确定,它有很多优点,简单快速,对大数据集有较好的效率等,当然也有缺点,最大的一个缺点个人认为是它没办法处理非球型的类别;    算法的基本步骤我也说说吧,1、首...

发表了文章 • 2016-06-02 16:44 • 1 条评论

4
推荐
3243
阅读

手把手的教你使用R语言的主成分分析对城管事件数据分析

概念性的东西就不说那么多了,这次使用主成分分析主要目的并不是降维,而是分析城管数据中的事件类别之间是否存在关系,当然,城管事件类型有好几百,这里就只选取从去年九月到目前发生量前十的事件类别;如下图,排名前十的事件类别依次为,车辆乱停放,乱堆物料堆,非法张贴小广告,店铺出店经营,自备容器外放,违规...

发表了文章 • 2016-05-26 18:23 • 4 条评论

1
推荐
2769
阅读

做个练习题认识常用分类算法决策树---ID3

决策树在数据分析中常用的是用来进行的分类的,不过在讲解决策树的ID3算法的时候我觉得有必要提前给大家科普一下几个必要的概念,尽量用通俗易懂的语言,如果过程有说遗漏的地方还请大牛们指出,因为本人也在学习中;或者说得不好的地方也请补充;先说一下决策树的一些优点:1,决策树的推理过程容易理解,大致可以理解...

发表了文章 • 2016-05-18 11:25 • 1 条评论

2
推荐
1921
阅读

通过一个简单的栗子认识关联分析算法--apriori

这次介绍一下我们关联分析的常用的一个算法,也比较简单容易学的,不需要太多的数学的概念,大学的时候老师就有教的,它叫APRIORI算法,这主要是挖掘频繁项集的一种迭代算法,频繁项集通俗易懂的理解就是出现次数较多,我们认为频繁的组合或者规则,那我怎么认这个组合或者规则就是频繁的呢?这时候在引入两个概念;&nbs...

发表了文章 • 2016-05-17 11:42 • 0 条评论

6
推荐
2712
阅读

举个栗子让你简单粗暴的学习常用分类模型--朴素贝叶斯算法

     通过几天的对数据挖掘的阅读,认真的学习了一下分类的一些常用的算法,例如决策树的ID3算法和朴素贝叶斯算法, 这两个算法都是用来对数据进行分类的,今天我给大家介绍一下朴素贝叶斯分类算法,尽量用通俗易懂的语言说给大家; 我们为什么要对数据进行分类呢?因为分类是一种重要的...

发表了文章 • 2016-05-16 16:04 • 11 条评论

5
推荐
1854
阅读

菜鸟R语言入门--资源自取

链接: http://pan.baidu.com/s/1hrJ1rwC 密码: jgec感谢原作者炼数成金的分享

发表了文章 • 2016-04-22 17:07 • 2 条评论

1
推荐
2276
阅读

回归诊断---异方差性

为什么要进行回归诊断?因为在利用最小二乘法原理去算模型的参数的时候,会有一些模型的基本假定,当这些模型的不满足这些假定的时候我们就要进行回归诊断了!异方差性 也就是说传统的模型因变量和自变量的方差不是一个常数,因变量随着自变量变化而变化。异方差出现是由于哪些情况造成的? 1、模型省略了某些重要的自...

发表了文章 • 2016-04-18 09:12 • 4 条评论

12
推荐
3221
阅读

菜鸟数据分析师对数据可视化的理解--完整篇

  本人新人一枚,是个菜鸟数据分析师,统计学专业,接触数据分析大概有半年,在这里稍微写一下自己对可视化的拙见,大牛们看了不对地方还望指正;刚刚工作不久就谈对可视化的理解确实是有些过了,个人因为也看不了不少可视化的手册或者书,例如:数据可视化之美,R语言可视化手册,数据可视化设计指南等,因为工作...

发表了文章 • 2016-03-15 22:12 • 9 条评论