1
推荐
2546
阅读

爬虫小实例-拉勾网数据分析岗位

周末没事,想看看最近的职位招聘情况,就用拉勾网为例,练习下爬虫1.分析    首先去拉勾网的主页去观察下,当前的搜索页面URL:观察下源码,发现结构很清晰,解析起来应该很方便,再通过下一页去遍历即可通过上面的,我们直接去解析应该是足够了,我们再看下他的请求信息,会找到这样一个post,很明显,...

发表了文章 • 2017-08-19 22:17 • 0 条评论

1
推荐
2271
阅读

爬虫小实例-1688物流信息之发货地信息获取

这里写个例子,公司的一个大神之前爬过1688上面的物流信息,这里也来试一下,顺便分享下学习过程。1. 背景介绍    目标网页:https://56.1688.com/order/price/estimate_price.htm    目的:抓取网站上所有的线路信息,保存到文件或数据库中。 2. 实践步骤先观察下网站的特征,随便...

发表了文章 • 2017-08-15 14:55 • 0 条评论

0
推荐
1465
阅读

爬虫小实例学习篇-猫眼电影

这里参考了论坛里一位同学分享的博客:猫眼电影TOP100爬取练习,感谢分享。学习要从模仿开始,学习了上面的博客之后,自己做下练习,正好最近看了selenium,就用了这个。原作者的正则用的太溜了,等后面有时间再研究下,这里就简单的使用CSS Selector来实现了。原文代码很精彩,我这个代码就粗糙很多了,先来个初始版,...

发表了文章 • 2017-08-09 10:25 • 0 条评论

2
推荐
2115
阅读

BeautifulSoup教程(2) - 实例-解析博客专栏

前几天学习了下Beautiful Soup的使用,本来想多写些内容的,但是发现,官方的介绍实在太详细了,每种方法基本都覆盖到了,直接看官方的例子就足够了,而且还有一个中文版的,这里的话,就简单实践下,介绍几个常用的方法和一些小经验。官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/这里,我们就简...

发表了文章 • 2017-04-20 22:27 • 2 条评论

2
推荐
1940
阅读

BeautifulSoup教程(1) - 简介及安装

最近在学习Python,按照一些博客练习爬虫,最简单的步骤,就是访问一个主页,根据正则表达式去获取我们想要的标签数据;比如这样:#加载网址,获取当前页面 def getHTML(url) : page = urllib.urlopen(url) html = page.read() return html def getImage(html) : reg = r'src="(.+?\.jpg)"' reg2 = r'<img alt=...

发表了文章 • 2017-04-16 19:10 • 0 条评论