2017年高考倒计时:72天!
今天推文的作者是我们Easycharts新的小伙伴周文闻,对爬虫研究较多,目前对百度贴吧的爬取有些心得,欢迎感兴趣的同学一起交流,文末有联系方式哦!
所以,没错,今天我们就从爬虫的结果来分析下百度贴吧——高考吧!
爬虫过程概述
高考吧是一个大型贴吧,关注人数2406811,帖子总数200多万,花了5天时间爬取所有帖子的链接、标题、回复数、发帖时间,发帖用户和用户等级,总计2016964条记录。此数据为2017年3月中旬的数据,与现在的数据有差异。
对爬取的过程稍作说明:
(1)爬取链接数:2417386
(2)去重后的链接数:2026735
(3)爬取成功的链接数:2016964
(4)被隐藏或删除的链接数:9771(如http://tieba.baidu.com/p/4858811200)
(5)爬取所用的程序语言:Python
(6)数据处理:Python+PowerBI+Excel(注:Python+Excel+PowerPivot运行缓慢,经常无响应,故弃之)
贴吧概况
高考吧的发帖人数占比与中考吧相同,0回复率更高一点,高考吧的友好程度更低。经统计,发帖用户中会员人数占发帖总人数的0.02%,大概学生更愿意花钱买书吧。。。(我也爬取了中考吧所有的帖子,所以有时会与高考吧进行对比)
年发帖量
2013年发帖量最高,2016年发帖量环比下降超过50%,这一点和中考吧极其相似,高考吧发帖量近几年下降明显,但是发帖量的数量级依然可以让人侧目,不是小贴吧能够相提并论的。
月发帖量
6月份高考,发帖量也最高
时发帖量
晚上10点发帖量最高,好像熬夜特征挺明显的,在下面会对熬夜这一问题做深入分析。
周发帖量
周末发帖量显著增加,不是很明白这一现象,高中应该没有周末吧,但是与高考吧的同学交流,并不是所有的学校都没有周末的。
用户等级分布
低等级用户占比较小,用户对贴吧依赖度较高
十大热帖
热帖反映了用户最关心的问题,有什么比看热帖更带劲的事情吗?
(注:热帖的详细网址需要加http://tieba.baidu.com,如http://tieba.baidu.com/p/2240661399,下同)
2013年十大热帖
跟踪每年的热帖,及时发现用户兴趣点的变化,2013年作为最活跃的年份,帖子回复数的量级也不同一般年份
2016年十大热帖
近几年的活跃低谷年份—2016年,热帖回复数的最大值比2013年热帖的最小值要小得多,这届的吧友不行?开玩笑的,:)
十大活跃用户
找到活跃用户,然后可以做什么呢?追踪活跃用户的发言,维护活跃用户体系
2013年十大活跃用户
江山代有才人出,各领风骚数百年(为了保护用户隐私,原谅小编给用户名加上部分马赛克)
2016年十大活跃用户
深入分析2013年发帖情况
分析2013年每天的发帖量情况,3、4、5、6和7月的发帖量较大,特别是6月考完和出分的那段时间.
分析3、4、5、6和7月份的发帖时间,3、4和5月份中熬夜人数占比较大,但是逐月减小,到了6月份后,熬夜比例减少一半左右,说明大部分人有好的考试习惯嘛。不能只看时发帖量的大趋势,要保持深挖数据的好习惯
贴吧关键词
200多万个标题做成词云
总结
从高考吧的分析上来看,高考学生关心的内容和喜欢的内容形式,与中考吧类似。近年来,高考吧的发帖量不断下降,与百度贴吧活跃度走低的大环境密切相关,贴吧作为一个社区平台,社交功能做的并不好,对增强用户粘性很不利。
节选
(1)2012年
http://tieba.baidu.com/p/1653549741
(2)2013年
http://tieba.baidu.com/p/2355829518
(3)2016年
http://tieba.baidu.com/p/4533354100
写在后面
热爱Python、喜欢数据可视化、关注K12在线教育产品运营,愿意付出更多的努力去了解,如果有任何的建议或者批评,请不吝赐教,谢谢。
——周文闻