0
推荐
2741
阅读

TensorFlow MNIST初级学习

MNIST初级学习我们本节要用 MNIST 数据集训练一个可以识别数据的深度学习模型来帮助识别手写数字。MNISTMNIST 是一个入门级计算机视觉数据集,包含了很多手写数字图片。数据集中包含了图片和对应的标注,在 TensorFlow 中提供了这个数据集,我们可以用如下方法进行导入:from tensorflow.examples.tutorials.mnist impor...

发表了文章 • 2017-10-30 02:37 • 0 条评论

2
推荐
3354
阅读

HTTP基本原理

HTTP基本原理在本节我们会详细了解 HTTP 的基本原理,了解在浏览器中敲入一个 URL 到获取网页内容发生了一个怎样的过程,了解了这些内容,有助于去进一步了解爬虫的基本原理。1. URI、URL在了解 HTTP 之前我们先了解一下 URI 和 URL。我们经常会听到 URI 和 URL 两个术语,URI 全称为 Uniform Resource Identifier,即统...

发表了文章 • 2017-09-17 23:21 • 1 条评论

3
推荐
3193
阅读

Scrapy对接Splash

在上一节我们实现了Scrapy对接Selenium抓取淘宝商品的过程,这是一种抓取JavaScript渲染页面的方式,除了使用Selenium还有Splash同样可以达到同样的功能,本节我们来了解下Scrapy对接Splash来进行页面抓取的方式。环境准备首先在这之前请确保已经正确安装好了Splash并正常运行,同时安装好了ScrapySplash库。开始接下来...

发表了文章 • 2017-08-07 16:23 • 0 条评论

1
推荐
3054
阅读

Scrapy对接Selenium

Scrapy抓取页面的方式和Requests库类似,都是直接模拟HTTP请求,因此如果遇到JavaScript渲染的页面Scrapy同样是无法抓取的,而在前文中我们抓取JavaScript渲染的页面有两种方式,一种是分析Ajax请求,找到其对应的接口抓取,Scrapy中同样可以用此种方式抓取;另一种是直接用Selenium或Splash模拟浏览器进行抓取,这种方...

发表了文章 • 2017-08-07 16:22 • 1 条评论

5
推荐
4562
阅读

Python3中Selenium使用方法

Selenium的使用基本使用首先我们来大体看一下Selenium有一些怎样的功能,先用一段实例代码来演示一下:from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium...

发表了文章 • 2017-05-27 23:58 • 0 条评论

9
推荐
3682
阅读

Python3中正则表达式使用方法

正则表达式本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然对于爬虫来说,有了它,我们从HTML里面提取我们想要的信息就非常方便了。实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面我们...

发表了文章 • 2017-05-27 23:57 • 1 条评论

3
推荐
3284
阅读

Python3中PyQuery的使用方法

PyQuery的使用在上一节我们介绍了BeautifulSoup的使用,它是一个非常强大的网页解析库,可有没有觉得它的一些方法使用有点不适应?有没有觉得它的CSS选择器功能没有那么强大?如果你对WEB有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合你的解析库——PyQuery。接下来我们就来感受一...

发表了文章 • 2017-05-27 23:56 • 0 条评论

8
推荐
1753
阅读

回首2016,展望2017

没有选择那个二零一六年尾,而是选择了这个二零一六年尾来总结。毕竟元旦那时候真的被一堆考试烦透,说到考试,可以说我是极其反对这种形式,在我看来,因为有了考试,学一门课反倒成了任务,而不是真正踏实地去学,有了考试,学习的目的不再是单纯学习,而是为了最后的应考。所以很多科目,经验之谈,一旦它成了我的课...

发表了文章 • 2017-01-27 15:09 • 2 条评论

5
推荐
4251
阅读

Python爬虫技巧一之设置ADSL拨号服务器代理

那夜那是一个寂静的深夜,科比还没起床练球,虽然他真的可能不练了。我废了好大劲,爬虫终于写好了!BUG也全部调通了!心想,终于可以坐享其成了!泡杯茶,安静地坐在椅子上看着屏幕上一行行文字在控制台跳出,一条条数据嗖嗖进入我的数据库,一张张图片悄悄存入我的硬盘。人生没有几个比这更惬意的事情了。我端起茶杯,...

发表了文章 • 2016-11-29 13:16 • 2 条评论