Python网络爬虫入门（九）—— 自学爬虫一月总结

发表: 2017-04-10 浏览: 1675

Python

小白的记录，写给自己

没有任何编程基础，C都没学过。
花了两周多，把廖大的教程草草过了，直接跳过web部分。然后开学了。
复习了一周数据结构。开始写爬虫。

第一个爬虫其实是 天涯论坛。大概三周前多一点，刚学会点正则表达式(其实是最简单的(.*?)），背着大电脑到图书馆，然后对着崔庆才大神的教程鼓捣半天，最后终于弄出来了，感觉整个世界都亮了。

然后去爬糗事百科，接着是百度贴吧旅行贴的图片，随便输入帖子号便可打印评论和下载图片（顺便还发现了两有趣的贴）

最开始是urllib2、re，慢慢开始学 requests、BeautifulSoup、xpath。
期间还把《图解http》看了。

然后在 CSDN上写博客，记录小项目。小项目前顺手加个"python 网络爬虫入门（一\二\三）"，骗骗一样刚学的盆友也好增加浏览量，好吧承认我是个小心机~ ^_^

开始用上面的富文本编辑器，不知道为啥页面一团糟。后面注册了简书帐号，发现markdown编辑器不要太好用，简书界面也友好，爱上了。后面发现CSDN也有markdown编辑器，于是每次先在简书上排版，发布，最后复制粘贴到CSND，
嘻嘻我简直机智~

研究了三天多pixabay，最后做了个"图片下载神器"，速度飞快。后面发现特么的获取的不是原图啊，赶紧地将大标题改成“一个简陋的下载器”，尴尬。

获取不到高清原图当然不服气，尤其是pixabay这种高人气网站。
然后试着破解pexels，成了。
（为了爬外网还专门买了一个月vpn）
原来图片API在源码里，新鲜不已。虽然单线程有些慢，终于是实际意义上的下载器。开始羞耻哒在Github上放自己的代码（说bug也行吧[小白式捂脸]）。

Pycharm这个编辑器确实很好用，就是界面太。。。于是动手修改Pycharm设置 ，改了一下午加一晚上，变成这样，个人觉得清新又护眼~

前阵子川大掀起“玻璃杯事件”，盛况空前。做了个爬虫爬info神回复前100条，“史上最全，拿走不谢”，抛到空间和朋友圈，小伙伴们都惊呆了，顺便骗了不少浏览量。通过这个爬虫学会了抓包，原来破解动态网页不止selenium和PhantomJS。

也遇到很多问题，基本上是自己想+查笔记+百度+知乎+csdn+stackoverflow解决的。

用selenium爬教务网失败。改用抓包，加上stackoverflow上偷来的奇淫巧计，顺利爬取 教务处成绩并保存至excel，仅用代码30余行。竟然开始有人浏览我写的东西，还收到几个赞，开心^_^

看到好多大神爬电商、招聘网站，分析数据起来有模有样，心动了。于是去爬 拉勾网，用BDP搞了个 小型数据分析。花了一晚上分析网站，主要用到抓包和Cookies，没学到scrapy所以有一点慢。3万多数据，没见过世面的小白还有些小激动~
做了一些图表效果还行（BDP大法吼啊）。

不得不说用简书记录项目，还是很费时间的，不过感觉也受了不少锻炼，尤其在总结思路、逻辑编排这几个方面。通过记录项目中的问题和解决思路，加深巩固了知识点。

最后总结一下：

这一个月，感觉也是断断续续，
毕竟本专业还要上课，主要通过
看教程、做笔记、写博文构建知识体系，通过小项目驱动学习

首先还是有收获
1、乐趣。发现了自己的兴趣原来在编程，爬虫简直打开了一个新世界。
每一次爬虫，就像升级打怪，万一通关，成就感满满。（反正比做实验好玩多了）
2、从迷茫到很忙。发现编程这一行牛人好多，自己要学的东西也好多呀。
3、告别依赖。貌似开始学会自己独立思考、解决各种问题，有自己的想法很重要，再不济“它山之石，可以攻玉”。

问题也不少
1、感觉爬虫 上手快精通难，深入学习的动力貌似不足，基础存在漏洞
2、专注度不够 效率很低，要是有大神带带就好啦
3、写的是技术文，却发现自己貌似渐渐奔往 段子手 的路上，怎么回事？

一个月的爬虫学习，算是入门了吧。
接下来就是学习PhtomJS动态页面、模拟登录破解验证码、多线程、Scrapy及mongodb数据库等等，太多太多得慢慢来。

不管怎么样，做自己喜欢的事情，真好。

1 个评论

seng

感谢分享，努力就有成果。

要回复文章请先登录或注册