原创 | #白百合出轨#数据吃瓜群众也来凑热闹(二)

浏览: 1217

原创 | #白百合出轨#数据吃瓜群众也来凑热闹(二)

通往数据挖掘之路:这是吃瓜群众的第二篇。
选题&爬虫&可视化:何红亮 
文字搬砖工:MOMO

上篇文章我们这群吃瓜群众看了一看#白百何出轨#话题精华栏下的相关数据(文章内容:#白百何出轨#数据吃瓜群众也来凑热闹(一))当然,这么劲爆的娱乐新闻,仅仅分析精华栏481条状态是远远不够的。

我们都知道,这类新闻爆出,吃瓜群众们都会去主角微博下逛一逛,然后留下“XX到此 一游 ”。所以小编(何红亮同学)就利用课余时间,用Python爬了白百何微博最近一条状态下的评论,爬虫截止时间为4月14日的下午2点。想要看一看爬虫代码的同学在微信公众号中回复“白百何代码”。


微博截图 截止4月16日晚上10点,微博评论数共27w+

从4月11日白百何发博到爬虫截止时间,共有22w+条评论。在写爬虫代码时,小编自己将昵称为表情或空、一些json有误直接做了剔除,最后获取到的评论数据共有11w+条。想要看一看白百何第一条微博评论数据的同学,在微信公众号内回复“白百何原数据

接下来就利用这11w+条评论数据和对应的用户数据做相应分析,看看吃瓜群众们的行为方式。

白百何最近一条微博每小时评论数


新闻爆出后,观光团第一时间(即4月12日中午12点~13点内)迅速到达白百何微博时间并留言以表“到此一游”,此一小时内,评论数骤达1.6w+(每小时评论数如上图)。观光团持续涌入白百何微博并留言近3个小时,前3个小时的微博评论数共4w+,约占总微博(注:爬虫获取11w+评论)的36.5%。由此可见,#白百何出轨#新闻爆发热度在前3小时最受人关注。

评论内容中频率最高前15个词


依旧通过结巴分词处理评论内容并做词频统计。出现频率最高的前15个词如上图。“出轨”一次提到次数为2w+。爆出新闻后,大家都来评论出轨一事。“观光团”、“卓伟”、“打卡”作为热门词汇,且提到次数相近。很容易能猜测到,有大部分用户会码上“卓伟观光团打卡”等类似语言。

评论热门第一条“卓伟观光团打卡”


Python做出评论词云


词云显示满屏的“哈哈哈”也是没谁了。

时间段内评论数前15名用户发送评论数及对应的昵称


话说回来,一方面是观光团看客大批涌入,另一方面蹭人们的用户也希望能蹭此机会,涨些粉丝,所以也就出现上图中,竟然有用户在此时间段内发了60+的评论!蹭热评的用户为了涨粉也真心不容易。每天要发这么多评论,也是很拼呐。

设备分布占比


设备分布数量


此次评论下,使用iPhone的人最多,约占总设备的66%。看来评论的朋友爱苹果比爱安卓多,且多的不是一点点呐。

小编作为一名“吃瓜路人”,4月13日20:30看了与本事件相关的全明星探斗鱼直播[白百何事件之卓伟独家音频曝光],并抱着好奇满屏的弹幕到底都在聊些什么的心态,于是就把弹幕数据都爬了下来。


本想结合直播视频回放,带大家一起看一看直播内容和弹幕。然而全明星探太坏了。为了不保留证据,没有录任何八卦爆料直播内容。哎,好气呀~

此次直播时间内,弹幕共有XX条,并在20:59~21:00时间段内,弹幕数达到最高为5500+条。根据上图弹幕趋势显示,20:59前后弹幕量并不多,为什么在这一时间内突然增加弹幕?



20:59弹幕明细


抽取弹幕总数最多的20:59看一看弹幕内容明细。该时间内用户都在扣1,时不时出现2。小编恰巧是边看直播边爬弹幕。这一时间内,恰好是主播准备爆料,询问用户们是否都在,在的扣1,不想听的扣2。正是这一互动,使得弹幕突然增加。不过,小编顺势观察当时在线人数为100w+,然而实时扣1的人数才5.5k+。这一结果是否也反应了了“直播人数”的真实性与否。


根据弹幕内容做分词,内容占比最大的竟然是“卢本伟牛逼”,占总内容的12.5%。占比达到第三的“五五开”实际和“卢本伟”是同一人。卢本伟是一名前LOL职业选手,现在斗鱼开了直播间,做游戏解说。 不知大家是否了解,斗鱼直播平台主营类目是各种和游戏相关的直播,大部分用户都是冲着游戏来的。所以任何视频刷游戏选手名字“卢本伟”或昵称“五五开”也是正常。

卢本伟(五五开百度百科)


去除“卢本伟”和“五五开”的内容分词占比


去除“卢本伟”和“五五开”内容分词词频


去除“卢本伟”和“五五开”这两个词(因为和娱乐圈完全没关系啊!),统计出占比最大的明星名词为吴秀波。为何会在弹幕刷“吴秀波”?小编解救你的八卦之心。在直播时,一个蒙面女主播说:“有个留着胡子,有着一群中年女粉丝的大叔型男明星,跟很多年轻女明星发生过关系。”于是用户们就开始猜测了,弹幕里提到最多的吴秀波就是在这次互动产生的。至于是不是吴秀波欧巴,就不告诉你呀,就告诉你~

发送弹幕数量排名前20名用户昵称


小编不得不佩服这些边看直播边发弹幕的朋友们,尤其是这个叫Hwen Yang同志,能在短短一个多小时的直播里扣270+条弹幕,真的很厉害!臣妾做不到啊!小编OS:看视频和直播,小编只喜欢安安静静得去看,不然太累了。。

今天凌晨,陈羽凡在微博上发出视频回应#白百何出轨#事件,视频中声明他与白百何在2015年就已离婚。所以啊,作为吃瓜群众的你我,在看完下面这一回应视频,也可以散啦。

#陈羽凡退出娱乐圈#4月16日凌晨,陈羽凡发表视频声明:“为了可以陪伴我的家人,为了可以陪伴孩子成长更专注,接下来我将无限时退出娱乐圈。”微博视频 视频中陈羽凡再次回应“白百何出轨事件”称两人2015年已协议离婚。#陈羽凡白百何离婚#

下面是作者介绍:

何红亮同学的微信公众号:通往数据自由之路(hhldata)欢迎关注~

MOMO同学的微信公众号:数据分析实习生(DA_Intern)欢迎关注~

另:在微信公众号内回复“白百何代码”,获取微博爬虫代码。

推荐 2
本文由 何红亮 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

没图呀,图片需要单独上传或者截图

要回复文章请先登录注册