简书非官方大数据（一）

发表: 2017-10-12 浏览: 1277

Python

昨天安稳的开始了Python数据分析的学习，向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析，像我这种爱好学习（不行，让我吐一下），当然是答应了。说实话，这个实战对我来说，难度很大：

1 数据的获取：我爬取最大的数据也就是20W+，简单的scrapy还能写一点，但简书用户量巨大，第一次尝试百万级甚至千万级数据的爬取。
2 数据的清洗和处理： “一个好的数据决定一个好的分析”，昨天才开始下载anaconda玩，估计得恶补下。
3 数据分析：本人感觉表达能力不是特别好，本人现在也是一个研究生，社会实践项目较少，对数据的表达能力缺乏。

不过既然感兴趣，也想去做，那就做呗！然后准备就建个系列文章记录我的一个小的实战项目吧。