Wakingup88688的博客专栏

曾经材料狗,如今段子手。一个python小白。知乎专栏:https://zhuanlan.zhihu.com/Waking-up 简书文集:http://www.jianshu.com/nb/11041494

0
推荐
1819
阅读

#Python笔记# —— 变量作用域

昨天看了命名空间,但是还是分不清命名空间、作用域之间的关系。核心编程关于这几个介绍得实在是敷衍又凌乱,网上找了一些博客,并汇总了下。<思维导图>变量作用域和名称空间名称空间(namespace):名字到对象的一个映射(前面说过)变量作用域(scope):Python程序里面一个文本区域(textual region),还指出了从...

发表了文章 • 2017-05-23 14:53 • 0 条评论

1
推荐
1713
阅读

#Python笔记# —— 命名空间(转)

Python命名空间、作用域一直没看懂。这篇文是网上看到的,写的很好。动手再梳理了下,然后再 将内容全部手打了一遍,增加理解。原文:Python命名空间的本质 - windlaughing - 博客园 (http://www.cnblogs.com/windlaughing/archive/2013/05/26/3100362.html )1、定义Namespace是名字到对象的一个映射。绝大...

发表了文章 • 2017-05-23 14:40 • 0 条评论

2
推荐
2340
阅读

Scrapy之断点续爬

Scrapy第五篇:断点续爬 | 存入MySQL五一前后疯癫玩了一周(纯玩耍真的),然后又应付本专业各种作业、PPT?本来想先解决IP这一块,结果被坑惨了,辗转两天先跳过,心累好久不学习,惭愧,不说了我们回归正题。不得不说scrapy真的是一个强大的框架,配上轻灵简洁的mongodb,只需极少代码便可应付一个简单爬虫。但如果几...

发表了文章 • 2017-05-11 16:12 • 0 条评论

2
推荐
4608
阅读

Scrapy抓手机App数据(今日头条)

Scrapy第四篇:APP抓取 | 存储入MongoDB咳咳,大家别误会哈,标题并不想搞什么大新闻,恰巧是“今日头条”爬虫而已。。以前抓的都是网页端的数据,今天,我们来抓一抓手机App中的数据道理其实非常简单,抓包调用Api,只不过依靠一个神器 — fiddler我们要抓的是这个(其实也很巧,周五上课的时候偶尔刷刷看到的,评论2万多...

发表了文章 • 2017-04-25 15:58 • 0 条评论

1
推荐
1753
阅读

Scrapy爬女神图(二)—— 原来还能这样玩

Srapy第三篇: ImagesPipeline的使用大家好呀,我来填坑了(半夜写文也是有些醉啊,课太多没有办法唉。。)(先随便放个图)上次的项目一发出,立即有盆友留言:"看来我们开的不是一辆车"”还是您这趟比较快“(详情请看:Scrapy爬女神图(一)—— 这是你们要的小姐姐)。。。。。我,,,我还只是个纯洁的宝宝好嘛。。不过...

发表了文章 • 2017-04-25 15:51 • 0 条评论

1
推荐
1248
阅读

深入剖析拉钩网,小白也来玩数据(一)

花了一晚上分析网站,半天写代码半天爬,最后做成BDP图表。总的大概3万多条数据吧,因为没学到scrapy和多线程,所以有些慢。875946035今天先来看数据吧~图上标有的数据即为抓到的总数,比如下面4400代表抓到有关C++总条数。一、先来看看整个互联网行业的状况(当然这里数据不能保证全面,只做举例)互联网 — 编程语言可...

发表了文章 • 2017-04-17 14:36 • 0 条评论

4
推荐
1574
阅读

爬取豆瓣有关张国荣日记(二)—— 策略源码知识点

一代偶像 张国荣本来想用Scrapy来爬的,结果连续被ban。设置动态UA、加Cookies、用vpn也无济于事,辗转一天多,累觉不爱。反爬机制不要太强啊,给豆瓣小组点个赞,跪服!!不过,最后还是用一般方法的解决了说来也奇怪,大概因为Scrapy是异步多线程,所以容易被发现吧。一、目标爬取豆瓣所有关于张国荣的日记1、获取每一...

发表了文章 • 2017-04-17 14:31 • 0 条评论

9
推荐
2200
阅读

Scrapy爬女神图(一)—— 这是你们要的小姐姐

  看到这个标题,目测一大波老司机心里开始os:难道又是 妹子图???(我。。。我还能说什么)宝宝的品位可不一般的好吧!!!这年代最流行什么呀?当然是“女神”,“校花”啦!!!(额,说“网红”的当我没说。。)颜值高,有范儿,关键气质逆天对不对~比如这样:这样:或者这样:这样:不错吧?(嘿嘿据说...

发表了文章 • 2017-04-17 14:03 • 2 条评论

4
推荐
2093
阅读

爬取豆瓣有关张国荣日记(一)—— 大家在怀念什么

其实很早就想研究这个话题,无奈课程太多搁置了。爬了豆瓣有关哥哥的2000多条日记,数据截至时间:2017-04-07 23:454月1号打开微信,看到人民日报在悼念张国荣,网上铺天盖地亦尽是他的名字,惊讶。我对张的了解仅停留在一部《倩女幽魂》。很好奇大家所说的“哥哥”,究竟是一个怎样的存在,时隔十几年仍被人追崇?还有大家...

发表了文章 • 2017-04-10 15:08 • 8 条评论

1
推荐
1559
阅读

Scrapy爬简书30日热门 —— 总是套路留人心

Scrapy 第一篇:单层次页面爬取 | 结巴分词最近刚接触Scrapy基础,不太适应(主要是各种设置和之前不太一样)。不过其分块思维吸引人,编写逻辑清晰,抓取速度也快。今天爬了简书30天热门的标题,简单做了个词频统计(想看分析的直接跳到后面吧~)过程比较简单就不详细叙述。一、记录一下出现的问题1、 首先是Scrap...

发表了文章 • 2017-04-10 15:02 • 0 条评论

2
推荐
1655
阅读

Python网络爬虫入门(九)—— 自学爬虫一月总结

小白的记录,写给自己没有任何编程基础,C都没学过。花了两周多,把廖大的教程草草过了,直接跳过web部分。然后开学了。复习了一周数据结构。开始写爬虫。第一个爬虫其实是 天涯论坛。大概三周前多一点,刚学会点正则表达式(其实是最简单的(.*?)),背着大电脑到图书馆,然后对着崔庆才大神的教程鼓捣半天,最后终...

发表了文章 • 2017-04-10 14:55 • 1 条评论

5
推荐
3666
阅读

python网络爬虫入门(八)—— 深入剖析拉钩网,小白也来玩数据 下

谈拉钩网爬虫的源码分析、爬虫策略及问题解决拉钩网因其json格式的结构化数据,成为几乎所有“爬者”必经的练手场。网上许多高手也分享了他们的经验和代码。上一篇我们简单分析和展示了数据。今天分几块来深入剖析拉钩网爬虫。一、一般爬取策略多说无益,以图为例,简要分析~已经尽量解析的详细了,一般爬取思路大概就是这...

发表了文章 • 2017-04-10 14:48 • 0 条评论

1
推荐
1390
阅读

python网络爬虫入门(七)—— 深入剖析拉钩网,小白也来玩数据 上

花了一晚上分析网站,半天写代码半天爬,最后做成BDP图表。总的大概3万多条数据吧,因为没学到scrapy和多线程,所以有些慢。今天先来看数据吧~图上标有的数据即为抓到的总数,比如下面4400代表抓到有关C++总条数。一、先来看看整个互联网行业的状况(当然这里数据不能保证全面,只做举例)可看出目前市场上java、php、c/...

发表了文章 • 2017-04-10 14:34 • 1 条评论

4
推荐
1621
阅读

python网络爬虫入门(六)—— 30余行代码爬取教务网成绩并存入Excel

“觊觎”教务网不是一天两天了。。之前试过selenium,结果失败。 昨天爬下来了,发现竟如此简单! 整个过程仅花核心代码30余行。一、步骤1、首先查看分析 打开界面是这样 查看源码是这样 什么都没有,难怪用selenium定位不到了。估计还得配合PhantomJS来渲染页面,麻烦呀。于是想到抓包,一下就...

发表了文章 • 2017-04-10 14:26 • 2 条评论

4
推荐
1720
阅读

Python网络爬虫入门(五)—— 巧用抓包,爬遍SCU玻璃杯事件所有神回复

最近我川又搞事情了然后info又炸了,,,据说最开始是这样的:然后是这样的:然后一发不可收拾了,校园各处不约而同响起了摔杯的声音,微信微博朋友圈qq空间,特么也全是玻璃碎片啊!!! (详情也可见scu官方微信 :http://mp.weixin.qq.com/s?src=3&timestamp=1490410781&ver=1&signature=yC6sD9GWka...

发表了文章 • 2017-04-10 14:21 • 0 条评论