你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

《Python网络数据采集》读后总结索引页

发表: 2016-06-10 浏览: 2397

《Python网络数据采集》读后感

列了一个《Python网络数据采集》读后总结的介绍索引页，供大家使用。

前言：

在序言里提到的爬虫应用的通用步骤

1.从URL获取对应的HTML代码(Retrieving HTML data from a domain name)

2.解析HTML代码获取想要的信息(Parsing that data for target information)

3.保存获取的信息(Storing the target information)

4.访问其他页面重复以上过程(Optionally, moving to another page to repeat the process)

具体的索引页：

《Python网络数据采集》读后总结--第1、2章第一个网络爬虫和HTML解析

《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例

使用Echarts呈现天善用户的关系图

《Python网络数据采集》读后总结--第4-6章使用API、存储数据和读取文档数据

天善博客内容如何转成PDF文档？附Seng的Blog的PDF文档

天善用户的博客内容合集PDF

合并多个PDF文档的解决：附生成天善用户的博客内容合集的Python示例

《Python网络数据采集》读后总结 --第7章清洗脏数据

数据质量工具OpenRefine的入门简介

避免爬虫的抓取陷阱检查清单：

1.检查页面是否由javascript生成

2.检查提交的表单是否包含所有应该提交的字段，包括隐含字段

可以使用Chrome’s Networkinspector 去检查

3.如果某些站点，session保持不住，注意cookie

4.如果经常遇到HTTP错误，特别是403 Forbidden errors，可能Ip被封了

首先换一个IP,谈后为了避免再次block,确认

a.不要太快的访问

b.修改你的headers

c.不要去触发Honeypots

d.最后和网络管理员联系^-^

推荐 4

本文由 seng 创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

seng哥这个要收藏了

学习啊，收藏

要回复文章请先登录或注册

文章目录