《Python网络数据采集》读后总结索引页

浏览: 2397

列了一个《Python网络数据采集》读后总结的介绍索引页,供大家使用。

前言:

在序言里提到的爬虫应用的通用步骤

1.从URL获取对应的HTML代码(Retrieving HTML data from a domain name)

2.解析HTML代码获取想要的信息(Parsing that data for target information)

3.保存获取的信息(Storing the target information)

4.访问其他页面重复以上过程(Optionally, moving to another page to repeat the process)

具体的索引页:

使用Echarts呈现天善用户的关系图

天善博客内容如何转成PDF文档?附Seng的Blog的PDF文档

天善用户的博客内容合集PDF

合并多个PDF文档的解决:附生成天善用户的博客内容合集的Python示例

数据质量工具OpenRefine的入门简介


避免爬虫的抓取陷阱检查清单:

1.检查页面是否由javascript生成

2.检查提交的表单是否包含所有应该提交的字段,包括隐含字段

可以使用Chrome’s Networkinspector 去检查

3.如果某些站点,session保持不住,注意cookie

4.如果经常遇到HTTP错误,特别是403 Forbidden errors,可能Ip被封了

  首先换一个IP,谈后为了避免再次block,确认

  a.不要太快的访问

  b.修改你的headers

  c.不要去触发Honeypots

  d.最后和网络管理员联系^-^

推荐 4
本文由 seng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

seng哥这个要收藏了
学习啊,收藏

要回复文章请先登录注册