Python网络爬虫入门(九)—— 自学爬虫一月总结

浏览: 1675

小白的记录,写给自己

没有任何编程基础,C都没学过。
花了两周多,把廖大的教程草草过了,直接跳过web部分。然后开学了。
复习了一周数据结构。开始写爬虫。

第一个爬虫其实是 天涯论坛。大概三周前多一点,刚学会点正则表达式(其实是最简单的(.*?)),背着大电脑到图书馆,然后对着崔庆才大神的教程鼓捣半天,最后终于弄出来了,感觉整个世界都亮了。



然后去爬糗事百科,接着是百度贴吧旅行贴的图片,随便输入帖子号便可打印评论和下载图片(顺便还发现了两有趣的贴)

最开始是urllib2、re,慢慢开始学 requests、BeautifulSoup、xpath。
期间还把《图解http》看了。

然后在 CSDN上写博客,记录小项目。小项目前顺手加个"python 网络爬虫入门(一\二\三)",骗骗一样刚学的盆友也好增加浏览量,好吧承认我是个小心机~ ^_^

开始用上面的富文本编辑器,不知道为啥页面一团糟。后面注册了简书帐号,发现markdown编辑器不要太好用,简书界面也友好,爱上了。后面发现CSDN也有markdown编辑器,于是每次先在简书上排版,发布,最后复制粘贴到CSND,
嘻嘻我简直机智~

研究了三天多pixabay,最后做了个"图片下载神器",速度飞快。后面发现特么的获取的不是原图啊,赶紧地将大标题改成“一个简陋的下载器”,尴尬。

获取不到高清原图当然不服气,尤其是pixabay这种高人气网站。
然后试着破解pexels,成了。
(为了爬外网还专门买了一个月vpn)
原来图片API在源码里,新鲜不已。虽然单线程有些慢,终于是实际意义上的下载器。开始羞耻哒在Github上放自己的代码(说bug也行吧[小白式捂脸])。

Pycharm这个编辑器确实很好用,就是界面太。。。于是动手修改Pycharm设置 ,改了一下午加一晚上,变成这样,个人觉得清新又护眼~


前阵子川大掀起“玻璃杯事件”,盛况空前。做了个爬虫爬info神回复前100条,“史上最全,拿走不谢”,抛到空间和朋友圈,小伙伴们都惊呆了,顺便骗了不少浏览量。通过这个爬虫学会了抓包,原来破解动态网页不止selenium和PhantomJS。

也遇到很多问题,基本上是自己想+查笔记+百度+知乎+csdn+stackoverflow解决的。

用selenium爬教务网失败。改用抓包,加上stackoverflow上偷来的奇淫巧计,顺利爬取 教务处成绩并保存至excel,仅用代码30余行。竟然开始有人浏览我写的东西,还收到几个赞,开心^_^

看到好多大神爬电商、招聘网站,分析数据起来有模有样,心动了。于是去爬 拉勾网,用BDP搞了个 小型数据分析。花了一晚上分析网站,主要用到抓包和Cookies,没学到scrapy所以有一点慢。3万多数据,没见过世面的小白还有些小激动~
做了一些图表效果还行(BDP大法吼啊)。

不得不说用简书记录项目,还是很费时间的,不过感觉也受了不少锻炼,尤其在总结思路、逻辑编排这几个方面。通过记录项目中的问题和解决思路,加深巩固了知识点。

最后总结一下:

这一个月,感觉也是断断续续,
毕竟本专业还要上课,主要通过
看教程、做笔记、写博文构建知识体系,通过小项目驱动学习

首先还是有收获
1、乐趣。发现了自己的兴趣原来在编程,爬虫简直打开了一个新世界。
每一次爬虫,就像升级打怪,万一通关,成就感满满。(反正比做实验好玩多了)
2、从迷茫到很忙。发现编程这一行牛人好多,自己要学的东西也好多呀。
3、告别依赖。貌似开始学会自己独立思考、解决各种问题,有自己的想法很重要,再不济“它山之石,可以攻玉”。

问题也不少
1、感觉爬虫 上手快精通难,深入学习的动力貌似不足,基础存在漏洞
2、专注度不够 效率很低,要是有大神带带就好啦
3、写的是技术文,却发现自己貌似渐渐奔往 段子手 的路上,怎么回事?

image.png



一个月的爬虫学习,算是入门了吧。
接下来就是学习PhtomJS动态页面、模拟登录破解验证码、多线程、Scrapy及mongodb数据库等等,太多太多得慢慢来。

不管怎么样,做自己喜欢的事情,真好。

推荐 2
本文由 waking_up88688 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

感谢分享,努力就有成果。

要回复文章请先登录注册