崔庆才的个人博客 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

9

推荐

3685

阅读

Python3中正则表达式使用方法

正则表达式本节我们看一下正则表达式的相关用法，正则表达式是处理字符串的强大的工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然对于爬虫来说，有了它，我们从HTML里面提取我们想要的信息就非常方便了。实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面我们...

发表了文章 • 2017-05-27 23:57 • 1 条评论

3

推荐

3291

阅读

Python3中PyQuery的使用方法

PyQuery的使用在上一节我们介绍了BeautifulSoup的使用，它是一个非常强大的网页解析库，可有没有觉得它的一些方法使用有点不适应？有没有觉得它的CSS选择器功能没有那么强大？如果你对WEB有所涉及，如果你比较喜欢用CSS选择器，如果你对jQuery有所了解，那么这里有一个更适合你的解析库——PyQuery。接下来我们就来感受一...

发表了文章 • 2017-05-27 23:56 • 0 条评论

8

推荐

5374

阅读

Python3中BeautifulSoup的使用方法

BeautifulSoup的使用我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有id或class来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？所以，这一节我们就介绍一个强大的解析工具，叫...

发表了文章 • 2017-05-27 23:55 • 3 条评论

4

推荐

5062

阅读

使用Tornado+Redis维护ADSL拨号服务器代理池

我们尝试维护过一个免费的代理池，但是代理池效果用过就知道了，毕竟里面有大量免费代理，虽然这些代理是可用的，但是既然我们能刷到这个免费代理，别人也能呀，所以就导致这个代理同时被很多人使用来抓取网站，所以当我们兴致勃勃地拿他来抓取某个网站的时候，会发现它还是被网站封禁的状态，所以在某些情况下免费代理...

发表了文章 • 2017-05-19 14:48 • 1 条评论

14

推荐

5328

阅读

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB

本节分享一下爬取知乎用户所有用户信息的Scrapy爬虫实战。本节目标本节要实现的内容有：从一个大V用户开始，通过递归抓取粉丝列表和关注列表，实现知乎所有用户的详细信息的抓取。将抓取到的结果存储到MongoDB，并进行去重操作。思路分析我们都知道每个人都有关注列表和粉丝列表，尤其对于大V来说，粉丝和关注尤其更多。...

发表了文章 • 2017-04-15 03:46 • 4 条评论

3

推荐

8152

阅读

小白进阶之Scrapy第三篇（基于Scrapy-Redis的分布式以及cookies池）

啥话都不说了、进入正题。首先我们更新一下scrapy版本。最新版为1.3再说一遍Windows的小伙伴儿 pip是装不上Scrapy的。推荐使用anaconda 、不然还是老老实实用Linux吧conda install scrapy==1.3 或者 pip install scrapy==1.3安装Scrapy-Redisconda install scrapy-redis 或者 pip install scrapy-redis需要注意：Python ...

发表了文章 • 2017-02-08 10:45 • 1 条评论

6

推荐

3121

阅读

小白进阶之Scrapy第二篇（登录篇）

其实拿这个网站当教程刚开始我是拒绝、换其他网站吧，又没什么动力···· 然后就···········上一篇Scrapy带大家玩了 Spider今天带带大家玩的东西有两点、第一CrawlSpider、第二Scrapy登录。目标站点：www.haoduofuli.wangGo Go Go！开整！还记得第一步要干啥？创建项目文件啊！没有Scrapy环境的小伙伴们请参考第一篇安装一...

发表了文章 • 2017-02-06 14:33 • 5 条评论

8

推荐

1756

阅读

回首2016，展望2017

没有选择那个二零一六年尾，而是选择了这个二零一六年尾来总结。毕竟元旦那时候真的被一堆考试烦透，说到考试，可以说我是极其反对这种形式，在我看来，因为有了考试，学一门课反倒成了任务，而不是真正踏实地去学，有了考试，学习的目的不再是单纯学习，而是为了最后的应考。所以很多科目，经验之谈，一旦它成了我的课...

发表了文章 • 2017-01-27 15:09 • 2 条评论

4

推荐

1840

阅读

使用Python收集获取Linux系统主机信息

使用 python 代码收集主机的系统信息，主要：主机名称、IP、系统版本、服务器厂商、型号、序列号、CPU信息、内存等系统信息。#!/usr/bin/env python #encoding: utf-8 ''' 收集主机的信息：主机名称、IP、系统版本、服务器厂商、型号、序列号、CPU信息、内存信息 ''' from subprocess import Popen, PIPE import os,s...

发表了文章 • 2016-12-21 10:17 • 1 条评论

2

推荐

2647

阅读

小白爬虫第二弹之健壮的小爬虫

我又来装逼了！上次教大家写了一个下载www.mzitu.com全站图片的小爬虫练手、不知道大家消化得怎么样？大家在使用的时候会发现，跑着跑着就断掉了！报错了啊！丢失连接之类的。幸幸苦苦的抓了半天又得从头来，心累啊！这就是网站的反爬虫在起作用了，一个IP访问次数过于频繁就先将这个IP加入黑名单，过一会儿再放出来。...

发表了文章 • 2016-12-12 17:25 • 1 条评论

4

推荐

2211

阅读

Python爬虫入门六之Cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么...

发表了文章 • 2016-12-06 10:23 • 1 条评论

4

推荐

2775

阅读

Python爬虫利器之PyQuery的用法

前言你是否觉得 XPath 的用法多少有点晦涩难记呢？你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢？你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢？你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢？嗯，那么，前端大大们的福音来了，PyQuery 来了，乍听名字，你一定联...

发表了文章 • 2016-12-05 09:58 • 0 条评论

3

推荐

2781

阅读

Python爬虫进阶四之PySpider的用法

审时度势PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架，支持多线程爬取、JS动态解析，提供了可操作界面、出错重试、定时爬取等等的功能，使用非常人性化。本篇内容通过跟我做一个好玩的 PySpider 项目，来理解 PySpider 的运行流程。招兵买马具体的安装过程请查看本节讲述安装嗯，安装好了之后就与我大干一...

发表了文章 • 2016-12-02 10:52 • 1 条评论

5

推荐

4277

阅读

Python爬虫技巧一之设置ADSL拨号服务器代理

那夜那是一个寂静的深夜，科比还没起床练球，虽然他真的可能不练了。我废了好大劲，爬虫终于写好了！BUG也全部调通了！心想，终于可以坐享其成了！泡杯茶，安静地坐在椅子上看着屏幕上一行行文字在控制台跳出，一条条数据嗖嗖进入我的数据库，一张张图片悄悄存入我的硬盘。人生没有几个比这更惬意的事情了。我端起茶杯，...

发表了文章 • 2016-11-29 13:16 • 2 条评论

2

推荐

2114

阅读

Python爬虫实战六之抓取爱问知识人问题并保存至数据库

大家好，本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法，涉及的内容包括：Urllib的用法及异常处理Beautiful Soup的简单应用MySQLdb的基础用法正则表达式的简单应用环境配置在这之前，我们需要先配置一下环境，我的Python的版本为2.7，需要额外安装的库有两个，一个是Beautiful Soup，一个是M...

发表了文章 • 2016-11-28 11:18 • 1 条评论