数据挖掘系列篇(19):视频网站个性化推荐Hulu&土豆

浏览: 1541

最近事情实在是比较多,要给几家公司做一下数据化运营的培训,另外还有不少金融投资领域的研究报告要交。有合作的需求可以发邮件到784414374@qq.com邮箱。和BOSS直聘的总监聊了下,了解到现在的BOSS很多对数据部门或者数据岗位的定位都不太清楚,准备策划一期围绕数据化运营的线下活动。

现在有家创业公司想做类似视频头条的这样idea,所以也是正好有机会在一起交流下这块的内容。主要围绕的就是短视频(新闻热点&秒拍&topic主题分类的短视频)的个性化推荐,之前是用过今日头条的视频,优点就是没有广告&同一topic的可以推很多,缺点作为我使用的体验来说就是一些内容质量上不够优质(比如看车展类的,一些主流媒体的推的很少)。

而作为视频类的网站国外有netflix、hulu这些做的比较好的,产品、架构、数据、算法这些思路上都有一些经验总结,13年的时候郑华介绍了hulu的产品、数据、算法、框架,这里没有移动端的数据。

hulu提供的内容都是premium content,数据是和youtube等以UGC内容为主的网站是截然不同。对推荐系统来说,这既是一个挑战同时也是一个机遇。大概提供5000个左右的title,20万个video,4万个小时的内容,大体上可以分为两类,一种是已经下线的叫做library content,包括比较老的一些电视剧比如Prison break, 24, Lost, X档案,Friends等和一些电影比如这个杀手不太冷,战争之王等,另外一种是现在还在电视台上播放的tv show,比如绝望的主妇,Lie to me, House以及火影忍者疾风传等。从统计图表上可以看出来,我们90%都是library show,on air show仅占10%,这个也是可以理解的,所有的正在播的tv show可能也就几百部,在中国这个数目可能更少。但是从流量上看,on air show却占我们总流量的74%,on air show代表了更大的价值,同时library show也代表了我们还有很大的机会。

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

给用户推荐的第一步是要了解用户。需要收集用户的行为从中了解用户的兴趣.Hulu的用户从总体上来看并不是很活跃,新注册用户会有demographic和他们自己favorite show和movie, 可以用来作为冷启动;一般的用户在hulu上至少会有观看和搜索行为,高级一点的用户会有subscribe和queue行为,再资深一点的用户会vote, 分享和tag,评论他们自己感兴趣的东西,基本上这些就是使用的所有的用户行为,各种行为会有不同的权重。并且从时间上也把这些行为分成长期的行为和短期的行为,短期行为反应了用户最近的兴趣,也会有更高的权重。用户看到我们的推荐结果,也会有不同的显式或隐式反馈,也会使用用户的这些反馈来作为推断他的兴趣。

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

从算法的角度讲,使用了基于item cf,content,topic model和demographics的混合推荐; 其中在item cf中的一个体会是数据量的大小决定了生成的item 相似度矩阵的质量,拿数据举例子,尽管vote行为可能更能反应用户的喜欢程度,但是他的量远远不如watch行为,watch行为生成的矩阵质量是更高的。(质量高是有manual的测试集测试了coverage能够的和precision)。在介绍item特点的时候也介绍了,很多的on air show是超级popular的,比如SNL, family guy在计算item similarity的时候很容易出现 harry porter现象,hulu也通过refine相似度公式对popular进行了一些惩罚,实际使用的时候效果还不错。Content相关主要使用了item的genre, title, company, tag和年代信息;还从用户的行为中(user – document; show – word; cluster show, extract common tags)用LDA算法聚合了一些topic,代表了不同的纬度,比如有日本武士片,英国喜剧等,在实际使用的时候效果还不错。

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

最后就是hulu的流量来源50%都是来自推荐系统,还是蛮给力的。多样性和相关性之间需要做一些平衡,多少位置放相关的视频,但也要保障有一些其他的内容来推荐。

先睡了!

推荐 0
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册