1
推荐
1683
阅读
使用Jsoup抓取页面数据
前言这两天看了简单灵活的Java爬虫框架——webmagic,其使用Jsoup作为HTML解析工具。因此又看了Jsoup的文档(http://www.open-open.com/jsoup/),发现用起来也比较容易,方法和python中的beautifulsoup比较相像,也可直接用来爬数据。1.加载包下载jsoup-1.10.2.jar包(https://jsoup.org/packages/jsoup-1.10.2.jar),这...
4
推荐
10997
阅读
给定公司名称excel列表,在天眼查搜索爬取企业工商信息(改进1)
上一篇写了天眼查公司详情页单页面爬取公司基本信息(https://ask.hellobi.com/blog/jasmine3happy/6200),这里改进一步。需求提供公司名称,需要获取公司工商注册信息,欲查找的公司名称存储在excel里。步骤分解1.读取excel数据(1)打开工作簿import xlrd
def open_excel(file):
try:
book = xlrd.open_w...
6
推荐
15265
阅读
简单爬取天眼查数据(非严谨)
一、常规抓包分析比如要爬取http://www.tianyancha.com/company/2310290454该页面的基础信息。通过火狐浏览器抓包,可以发现,所要数据都在下图的json文件里查看其请求伪装成浏览器爬取该文件:import requests
header = {
'Host': 'www.tianyancha.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; r...