3
推荐
2724
阅读

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

今天带给大家的是一款爬虫神器-selenium,使用该库可以对付绝大部分的网站,不论这网站反爬策略多么的厉害,在selenium面前经常失效。selenium是什么?官网中介绍seleniumSelenium automates browsers. That's it! What you do with that power is entirely up to you. Primarily, it is for automating web application...

发表了文章 • 2017-03-22 11:42 • 0 条评论

1
推荐
2033
阅读

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。cookie是什么某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定...

发表了文章 • 2017-03-21 14:24 • 3 条评论

7
推荐
2868
阅读

【含视频教程】用python批量抓取简书用户信息

前几天在看崔庆才老师的教程,用Scrapy抓知乎用户信息,里面用到了递归。之前我写的爬虫都是将已知的固定数据的网址存到list中,然后遍历list中的网址。这次针对简书,我们使用递归来试一下。什么是递归程序(或函数)调用自身的编程技巧称为递归( recursion)。一个过程或函数在其定义或说明中有直接或间接调用自身的...

发表了文章 • 2017-03-19 01:08 • 2 条评论

0
推荐
1384
阅读

爬豆瓣电影名的小案例2(附视频操作)

上一篇只是对一个网页进行的数=数据提取,还不算完整的的爬虫。我的理解是,一个初级的爬虫脚本应该包括三部分:网址处理器,用来提供抓取网址对象网页解析器,用来提取网页中稀疏分散着的目标数据数据存储器,用来保存提取的数据。上一节的小例子,只涉及到第二部分,第一部分不完整,第三部分没涉及。网址处理器做爬虫...

发表了文章 • 2017-03-16 05:23 • 0 条评论

7
推荐
1785
阅读

爬豆瓣电影名的小案例(附视频操作)

之前的文章一直都是代码,文字讲解很少。从今天开始,我想每天讲解一个爬虫的小案例,可能是爬豆瓣,可能是爬知乎,也可能去爬淘宝评论,不一而足。只要有趣有用就好。豆瓣是我很喜欢的平台,一般大家都会去豆瓣看影评,书评,根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集...

发表了文章 • 2017-03-15 14:14 • 10 条评论

2
推荐
3514
阅读

用python抓取淘宝某产品评论(附视频教程)

之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中...

发表了文章 • 2017-03-15 12:38 • 1 条评论