1
推荐
1683
阅读

使用Jsoup抓取页面数据

前言这两天看了简单灵活的Java爬虫框架——webmagic,其使用Jsoup作为HTML解析工具。因此又看了Jsoup的文档(http://www.open-open.com/jsoup/),发现用起来也比较容易,方法和python中的beautifulsoup比较相像,也可直接用来爬数据。1.加载包下载jsoup-1.10.2.jar包(https://jsoup.org/packages/jsoup-1.10.2.jar),这...

发表了文章 • 2017-05-23 22:21 • 0 条评论

4
推荐
10997
阅读

给定公司名称excel列表,在天眼查搜索爬取企业工商信息(改进1)

上一篇写了天眼查公司详情页单页面爬取公司基本信息(https://ask.hellobi.com/blog/jasmine3happy/6200),这里改进一步。需求提供公司名称,需要获取公司工商注册信息,欲查找的公司名称存储在excel里。步骤分解1.读取excel数据(1)打开工作簿import xlrd def open_excel(file): try: book = xlrd.open_w...

发表了文章 • 2017-02-18 17:33 • 2 条评论

6
推荐
15265
阅读

简单爬取天眼查数据(非严谨)

一、常规抓包分析比如要爬取http://www.tianyancha.com/company/2310290454该页面的基础信息。通过火狐浏览器抓包,可以发现,所要数据都在下图的json文件里查看其请求伪装成浏览器爬取该文件:import requests header = { 'Host': 'www.tianyancha.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; r...

发表了文章 • 2017-02-10 13:43 • 5 条评论