如何用程序和算法来分析一个直播间弹幕的含金量?

0
背景介绍:现在在直播行业里虚假数据盛行,各大小主播人气值动辄几万上百万,也有不少请主播和平台请水军刷屏弹幕来填充人气。

最近在做一个抓取斗鱼直播平台弹幕到数据库进行后期分析的,理想的是能通过分析出来的数据制定一些指标来衡量这个直播间弹幕的含金量。

下图是我8月15 日抓取斗鱼“德云色”直播间全直播时段的弹幕进行的一些简单分析
v2-5a6005ba10584eab7d152b98da518e0a_b.png

图1. 直播时段每分钟弹幕量。

v2-92f1a9e524f772b7ef50425ec2a2c2fe_b.png

图2.粉丝牌发言占比

v2-9bf38a16d8c3def5af8a1baaff29f481_b.png

图3.等级构成

v2-4e9b15ae92bb56b567fdb48cabd6ddd0_b.png

图4. 弹幕词频

v2-e6b71f96b1189a2e01cda62f45413ea9_b.png

图5. 每10分钟的弹幕量和该时段内发了弹幕的用户量比较图




以上的数据还是很难提取关键的信息。

我通过手动调用语句可以查出以下一些弹幕具体内容的信息:

v2-083214b675689842041d72164f498bdf_b.png

ID为“一代宗谈”的用户在直播时段总共发了三千多条弹幕,内容全部为无意义的刷屏信息,可以鉴定为一个弹幕机器。

再上个“张大仙”直播间水军的样例:

v2-438786b6ebaa7eeb8fe621bdddff6980_b.png


v2-806caef84ae44426c95d92d2a7ce4768_b.png

再上一个“真正的活跃粉丝”的例子:

v2-cadfd4ba63990c8a79ef8a36c87433cb_b.png

那么问题来了,如何用程序和算法有效的【大量】鉴别“弹幕机器”,“水军”和“真正发言活跃的粉丝”。

 
已邀请:
0

Infor 2017-08-18 回答

 只能提供个思路:首先你不是已经找到了,那些是机器人发的那些是正常粉丝发的评分 (取出相关特征值)
                            然后你给这些数据打上标签(比如说1、表示是正常人 0、表示机器人的)
                            最后打好标签后,通过机器学校算法(贝叶斯、决策树 随机森林啊,等一大堆的),来进行判定 

要回复问题请先登录注册