原创 | #白百合出轨#数据吃瓜群众也来凑热闹(一)

浏览: 1619

原创 | #白百合出轨#数据吃瓜群众也来凑热闹(一)

话说娱乐圈每天事情不断,一会儿这对夫妻闹离婚,一会儿那对夫妻被上头条,要么男方和第三名女子偷偷摸摸去酒店看夜光手表,要么就是女方和第三名男子正大光明到泰国你侬我侬。这不,这几天又爆出#白百合出轨#,新一波娱乐圈热评事件刷爆微博。

作为什么事都喜欢拿来爬个虫看看结果的小编来说,此次热门事件当然也有所出手了。从数据的角度瞅一瞅关注此次事件的微博用户会发些什么状态,用户的基本属性又是如何。

数据源:#白百合出轨#话题下精华栏状态相应数据

时间段:2017.04.12-2017.04.13

实现工具:Python -爬虫、可视化

首先放上爬下来的结果。表中包含的字段分别是:发送状态时间、转发数、评论数、点赞数、发送状态来源、状态字数、状态内容、发送状态用户昵称、性别、用户id、statuses_count、关注数、粉丝数、微博url、手机型号、是否认证、认证类型、微博认证说明等字段。 


上图为#白百合出轨#话题精华栏下总的发状态时间分布。从图中明细显可以看到状态发送有两个峰值。一个为12日的晚上8点-9点档,另一个为13日早上10点-11点档。其中晚上8点-9点档的状态最多,在这一小时内精华栏下发布80条状态。


在此精华评论中,发状态男性占总状态数的68.1%,女性为31.9%。看来当广大男性朋友更关注心中女神的一举一动,一颦一簇。更何况是这种惊天大事,更让他们按捺不住发条状态压压惊。


4月12日12:00~4月13日12:00#白百合出轨#精华栏共有状态481条。其中40.9%的状态在100~200字之间,39.5%的状态有200字以上,只有19.6%状态的文字少于100字。看来精华栏下用户对此次事件充分释放了自己的想法。


小编用这481条状态 做了分词、词频统计&云词, 大家能直观看出状态的主要内容。小词频排名前15的词汇如上图。小编看到白百合、出轨、陈羽凡、视频这些词。直接联想到曝光内容,咦~~辣眼睛。


上图为网友状态的云词图,大家感受一下陈羽凡的心情。


根据词性分析,正面情感词:负面情感词是521:1212。#白百合出轨#这类型的事件本身就是让人比较厌恶的,所以出现负面情感词远超正面情感词这一结果也是意料之中。


精华栏下用户发布状态最多的用户为“XX代理”。“XX代理”?就是个趁热点的货......

本来小编还默认精华栏的评论都是阅读量超高的。然而从数据中发现这些用户的昵称发现发文最多的是“XX代理”,以及这些用户的状态的转发评论数量并不是太高,才知道精华都是买坑位蹭热门的!!所以,精华内容并不精华啊!!

用户其他基本信息如下:

①用户认证情况:


发状态的用户中,有73.9%已认证,26.1%未认证。

②发布状态的设备和渠道


不过话说回来,人家小情侣的事儿,和我们这些爱学习的人也没太大关系,是不是?所以,我们要好好学好数据分析是不是?哈哈。我也在路上,一起上路么?

嘿嘿哒。

下期预告:

#白百合出轨第二弹#【全明星直播】在4月13日晚的斗鱼直播中网友们发弹幕都在聊些啥?

白百合被爆料后,网友们又在她的微博下评论了啥?敬请期待数据吃瓜群众下一期探究

下面是作者介绍:

何红亮同学的公众号:通往数据自由之路(hhldata)欢迎关注~

MOMO同学的公众号:数据分析实习生(DA_Intern)欢迎关注~


推荐 2
本文由 何红亮 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册