张俊红的博客专栏

数据分析路上的学习者和实践者,与你分享我的所见,所学、所想

0
推荐
1735
阅读

决策树-CART算法

总第80篇01|前言:本篇接着上一篇决策树详解,CART是英文“classification and regression tree”的缩写,翻译过来是分类与回归树,与前面说到的ID3、C4.5一致,都是决策树生成的一种算法,同样也由特征选择、树的生成以及剪枝组成,既可以用于分类也可以用于回归。CART算法由决策树的生成以及决策树剪枝两部分组成。02|CA...

发表了文章 • 2017-09-18 10:51 • 0 条评论

0
推荐
1388
阅读

决策树详解

总第79篇01|背景:我们在日常生活中经常会遇到一些选择需要去做一些选择,比如我们在找工作的时候每个人都希望能找到一个好的工作,但是公司那么多,工作种类那么多,什么样的工作才能算是好工作,这个时候就需要我们对众多的工作去做一个判断。最常用的一种方法就是制定几个可以衡量工作好坏的指标,比如公司所处的行业...

发表了文章 • 2017-09-18 10:39 • 0 条评论

1
推荐
1382
阅读

朴素贝叶斯详解

总第78篇一、统计知识01|随机事件:1、概念随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本...

发表了文章 • 2017-08-28 16:17 • 0 条评论

0
推荐
1662
阅读

最懒惰的算法—KNN

总第77篇本篇介绍机器学习众多算法里面最基础也是最“懒惰”的算法——KNN(k-nearest neighbor)。你知道为什么是最懒的吗?01|算法简介:KNN是英文k-nearest neighbor的缩写,表示K个最接近的点。该算法常用来解决分类问题,具体的算法原理就是先找到与待分类值A距离最近的K个值,然后判断这K个值中大部分都属于哪一类,那...

发表了文章 • 2017-08-15 10:27 • 0 条评论

0
推荐
1232
阅读

机器学习开篇

总第76篇声明:1、接下来的关于机器学习的专题内容都会借鉴李航老师的《统计学习方法》。2、李航老师的书籍中把机器学习称为统计机器学习,我们在文章中简称为统计学习。01|统计学习概览:1、统计学习的概念统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。2、统计学习的对象统...

发表了文章 • 2017-08-15 10:18 • 0 条评论

0
推荐
1621
阅读

数学之美(二)

总第75篇本篇为数学之美连载篇二,你还可以看:数学之美(一)11|矩阵运算与文本处理:无论是词汇的聚类还是文本的分类,都可以通过线性代数中的奇异值分解来进行,这样自然语言的处理问题就变成了数学问题。我们在前面讲过利用余弦定理去对新闻进行分类,这种方法需要对所有新闻做两两的计算,而且要进行很多次迭代,耗...

发表了文章 • 2017-07-31 14:18 • 0 条评论

1
推荐
2127
阅读

数学之美(一)

总第73篇本篇为书籍《数学之美》的一部分读书笔记,分两篇来完成,只摘录了书中我个人认为重要的、典型的部分章节的部分内容分享出来,有兴趣的可以自己买来看看。01|文字和语言vs数字和信息:1、数字、文字和自然语言一样,都是信息的载体,而语言和数学的产生是为了记录和传播信息。2、通信模型发出者发出的信息源先编...

发表了文章 • 2017-07-18 15:05 • 0 条评论

1
推荐
1647
阅读

爬虫进阶(四)

总第71篇01|背景:前段时间给人填报志愿,无意间发现这个网站的:http://gkcx.eol.cn/soudaxue/queryschoolgufen.html,这个网站整体不错,会根据生源地、高考分数、和文理科来推荐一些可以报考的学校,但是使用不是很方便,不可以设置多个条件(比如我想把东三省的学校挑出来),只能一个省份一个去点击。再比如我想要...

发表了文章 • 2017-07-05 12:56 • 0 条评论

1
推荐
1950
阅读

爬虫进阶(三)

总第69篇01|背景介绍:我们前面的几篇推文都是针对网页版的内容进行抓取,但是有的时候当我们想要的数据没有网页版只有APP端时,这个时候该怎么办呢?是人工去摘抄我们想要的数据吗?我们肯定不想这么做,我们想想怎样网页版和APP版有什么不同,是什么原因导致我们不能够按以往的方式来正常抓取数据。要想找到原因,我们...

发表了文章 • 2017-06-07 16:08 • 0 条评论

1
推荐
1761
阅读

爬虫进阶(二)

总第66篇在前面的几篇推文中我们分享了最基础的爬虫入门,以及基于AJAX的爬虫入门,这篇我们分享关于如何利用selenium对目标网页进行数据爬取的。01|背景介绍:学爬虫怎么能不买一本Python爬虫书来看呢,有人推荐说《用Python写网络爬虫》这本书不错,所以决定入手一本看看,但是淘宝上卖家比较多,我该选哪家呢,我想选...

发表了文章 • 2017-04-27 08:44 • 0 条评论

1
推荐
1705
阅读

爬虫进阶(一)

总第65篇往期相关推送:零基础学习爬虫并实战房天下数据爬取及简单数据分析01|背景介绍:前两篇推文里面涉及的目标爬取对象都比较简单,要么是普通的静态网页图片,要么是有规律的url参数,通过遍历参数就可以爬取不同的页面内容。还有一种目标爬取对象不属于上面任何一种。我们要爬取每个图集里面的每张图片,就是下图...

发表了文章 • 2017-04-24 16:56 • 0 条评论

3
推荐
2274
阅读

房天下数据爬取及简单数据分析

总第64篇01|明确本次爬虫以及目的:我是想看看太原的房地产情况,包括楼盘名称、价格、所处区域、评论数(一定程度上可以反映出该楼盘受欢迎程度)。明确了目的以后就该去寻找这些数据的出处,也就是网站,由于太原互联网环境欠发达,所以好多房产APP上都没有太原,有的APP有,但是也只有几十家楼盘,最后在搜索的过程中...

发表了文章 • 2017-04-24 10:04 • 2 条评论

1
推荐
1853
阅读

零基础学习爬虫并实战

总第63篇本篇主要从爬虫是什么、爬虫的一般流程、爬虫各个流程的实现方法、爬虫实例四个方面分享零基础了解爬虫,并进行简单的实战。在阅读下面之前,我们需要对网页有个基本的了解,知道什么是标签,什么是属性,以及知道标题是放在哪,内容是放在哪,这些关于网站的基础知识。可查看我前几篇关于网页基础知识的推文:...

发表了文章 • 2017-04-19 14:43 • 0 条评论

0
推荐
1760
阅读

网页的行为

01|JavaScript是什么:JavaScript 是一种轻量级的编程语言。JavaScript 是可插入 HTML 页面的编程代码。JavaScript 插入 HTML 页面后,可由所有的现代浏览器执行,以此来增加HTML页面的交互性。02|JavaScript怎么用:1、HTML 中的脚本放在<script>和</script>标签之间。脚本可被放置在 HTML 页面的<body&...

发表了文章 • 2017-04-17 10:48 • 0 条评论

0
推荐
1167
阅读

网页的修饰

01|什么是CSS:CSS 指层叠样式表 (Cascading Style Sheets)样式是用来定义如何显示 HTML 元素02|CSS怎么用:CSS怎么用,也就是CSS的语法。CSS 规则由两个主要的部分构成:选择器,以及一条或多条声明。选择器通常是您需要改变样式的 HTML 元素。每条声明由一个属性和一个值组成。属性(property)是希望设置的样式属性(...

发表了文章 • 2017-04-17 10:45 • 0 条评论