简书非官方大数据(一)

浏览: 1277

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大:

1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。
2 数据的清洗和处理: “一个好的数据决定一个好的分析”,昨天才开始下载anaconda玩,估计得恶补下。
3 数据分析 : 本人感觉表达能力不是特别好,本人现在也是一个研究生,社会实践项目较少,对数据的表达能力缺乏。

不过既然感兴趣,也想去做,那就做呗!然后准备就建个系列文章记录我的一个小的实战项目吧。

数据爬取分析

今天先讲讲我的爬取数据的一点分析吧。简书没有管理用户的一个系统,我的想法是:

1

2

3


第四步:就是通过URL获取用户的具体信息啦

部分成果


已经爬取了50w+数据,代码今天就不贴上了。大家有什么好的想法也可以和我讨论。

推荐 0
本文由 罗罗攀 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册