如何用程序和算法来分析一个直播间弹幕的含金量?
0
背景介绍:现在在直播行业里虚假数据盛行,各大小主播人气值动辄几万上百万,也有不少请主播和平台请水军刷屏弹幕来填充人气。
最近在做一个抓取斗鱼直播平台弹幕到数据库进行后期分析的,理想的是能通过分析出来的数据制定一些指标来衡量这个直播间弹幕的含金量。
下图是我8月15 日抓取斗鱼“德云色”直播间全直播时段的弹幕进行的一些简单分析
图1. 直播时段每分钟弹幕量。
图2.粉丝牌发言占比
图3.等级构成
图4. 弹幕词频
图5. 每10分钟的弹幕量和该时段内发了弹幕的用户量比较图
以上的数据还是很难提取关键的信息。
我通过手动调用语句可以查出以下一些弹幕具体内容的信息:
ID为“一代宗谈”的用户在直播时段总共发了三千多条弹幕,内容全部为无意义的刷屏信息,可以鉴定为一个弹幕机器。
再上个“张大仙”直播间水军的样例:
再上一个“真正的活跃粉丝”的例子:
那么问题来了,如何用程序和算法有效的【大量】鉴别“弹幕机器”,“水军”和“真正发言活跃的粉丝”。
最近在做一个抓取斗鱼直播平台弹幕到数据库进行后期分析的,理想的是能通过分析出来的数据制定一些指标来衡量这个直播间弹幕的含金量。
下图是我8月15 日抓取斗鱼“德云色”直播间全直播时段的弹幕进行的一些简单分析
图1. 直播时段每分钟弹幕量。
图2.粉丝牌发言占比
图3.等级构成
图4. 弹幕词频
图5. 每10分钟的弹幕量和该时段内发了弹幕的用户量比较图
以上的数据还是很难提取关键的信息。
我通过手动调用语句可以查出以下一些弹幕具体内容的信息:
ID为“一代宗谈”的用户在直播时段总共发了三千多条弹幕,内容全部为无意义的刷屏信息,可以鉴定为一个弹幕机器。
再上个“张大仙”直播间水军的样例:
再上一个“真正的活跃粉丝”的例子:
那么问题来了,如何用程序和算法有效的【大量】鉴别“弹幕机器”,“水军”和“真正发言活跃的粉丝”。
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
Infor 2017-08-18 回答
赞同来自:
然后你给这些数据打上标签(比如说1、表示是正常人 0、表示机器人的)
最后打好标签后,通过机器学校算法(贝叶斯、决策树 随机森林啊,等一大堆的),来进行判定