R语言数据挖掘

如何用爬虫爬取航空网站？航空公司的票务信息，能够实时抓取的那种？

0

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

4 个回复

1

philbert 2016-03-21 回答

一点建议，请参考：
1 网络爬虫属于搜索引擎的技术范畴，属于搜索引擎采集数据的关键手段，是下一步根据采集内容建立摘要和索引的基础，说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容，所以建议楼主先关注下搜索引擎原理中的数据采集部分内容，了解一下其实现的主要框架，网上相关文章还是比较多的。
2 单就你要获取的信息来说，航空公司的网站具体安全级别将直接影响网络爬虫实现的复杂度，因为目前很多网站为防止攻击等安全问题的发生，会对网络爬虫的访问进行屏蔽，在这种情况下要获得需要的信息就必须结合网站的具体情况对你的爬虫进行数据获取的细节进行规划，在规划爬虫实现的细节之前还是建议楼主对普通搜索引擎的数据采集部分的实现原理和方式进行比较细致的了解。

0

贝克汉姆 - 高级数据仓库工程师，拥有丰富的数据治理实践经验 2016-03-22 回答

你可以用apache lucene 开源的工具抓取，一般输入网站URL作为种子即可爬

0

梦蝶数据 2019-04-17 回答

梦蝶数据可以，能够抓取网页上99%的信息

0

laical 2020-04-27 回答

linux下：scrapy crawl bdspider 可以跑，
用 scrapy.cmdline 报错了： ImportError: cannot import name 'cmdline'
有大佬碰到过吗

要回复问题请先登录或注册

如何用爬虫爬取航空网站？航空公司的票务信息，能够实时抓取的那种？

4 个回复

发起人

相关问题

问题状态

如何用爬虫爬取航空网站？航空公司的票务信息，能够实时抓取的那种？

与内容相关的链接

4 个回复

发起人

相关问题

问题状态