如何用爬虫爬取航空网站?航空公司的票务信息,能够实时抓取的那种?

0
已邀请:
1

philbert 2016-03-21 回答

一点建议,请参考:
1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的主要框架,网上相关文章还是比较多的。
2 单就你要获取的信息来说,航空公司的网站具体安全级别将直接影响网络爬虫实现的复杂度,因为目前很多网站为防止攻击等安全问题的发生,会对网络爬虫的访问进行屏蔽,在这种情况下要获得需要的信息就必须结合网站的具体情况对你的爬虫进行数据获取的细节进行规划,在规划爬虫实现的细节之前还是建议楼主对普通搜索引擎的数据采集部分的实现原理和方式进行比较细致的了解。
0

贝克汉姆 - 高级数据仓库工程师,拥有丰富的数据治理实践经验 2016-03-22 回答

你可以用apache lucene 开源的工具抓取,一般输入网站URL作为种子即可爬
0

梦蝶数据 2019-04-17 回答

梦蝶数据可以,能够抓取网页上99%的信息
0

laical 2020-04-27 回答

linux下:scrapy crawl bdspider 可以跑,
用 scrapy.cmdline 报错了: ImportError: cannot import name 'cmdline'
有大佬碰到过吗
 
0

Kiwi2021 2021-07-15 回答

一点建议,请参考: 1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下<a href="https://www.1683990.com/"> nice</a>一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,<a href="https://www.1685100.com/view/z ... gt%3B 天津快乐十分</a>所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的主要框架,网上相关文章还是比较多的。 2 单就你要获取的信息来说,航空公司的网站具体安全级别将直接影响网络爬虫实现的复杂度,因为目前很多网站为防止攻击等安全问题的发生,<a href="https://www.1685100.com/view/z ... gt%3B 极速赛车</a>会对网络爬虫的访问进行屏蔽,在这种情况下要获得需要的信息就必须结合网站的具体情况对你的爬虫进行数据获取的细节进行规划,在规划爬虫实现的细节之前还是建议楼主对普通搜索引擎的数据采集部分的实现原理和方式进行比较细致的<a href="https://www.1685100.com/view/z ... gt%3B SG飞艇</a>了解。
 


 

 
 

要回复问题请先登录注册