列了一个《Python网络数据采集》读后总结的介绍索引页,供大家使用。
前言:
在序言里提到的爬虫应用的通用步骤
1.从URL获取对应的HTML代码(Retrieving HTML data from a domain name)
2.解析HTML代码获取想要的信息(Parsing that data for target information)
3.保存获取的信息(Storing the target information)
4.访问其他页面重复以上过程(Optionally, moving to another page to repeat the process)
具体的索引页:
使用Echarts呈现天善用户的关系图
天善博客内容如何转成PDF文档?附Seng的Blog的PDF文档
天善用户的博客内容合集PDF
合并多个PDF文档的解决:附生成天善用户的博客内容合集的Python示例
数据质量工具OpenRefine的入门简介
避免爬虫的抓取陷阱检查清单:
1.检查页面是否由javascript生成
2.检查提交的表单是否包含所有应该提交的字段,包括隐含字段
可以使用Chrome’s Networkinspector 去检查
3.如果某些站点,session保持不住,注意cookie
4.如果经常遇到HTTP错误,特别是403 Forbidden errors,可能Ip被封了
首先换一个IP,谈后为了避免再次block,确认
a.不要太快的访问
b.修改你的headers
c.不要去触发Honeypots
d.最后和网络管理员联系^-^