Netflix与推荐系统

浏览: 1570

作者:挖数  腾讯数据产品经理 & 段子手

个人微信公号:washu66



最近,看到光腚总菊在6月30日又发布了老百姓喜闻乐见的通知【苹果中国区所有游戏需要广电总局审批才可上架】,不禁感叹中国媒体游戏行业的命途多舛,莫非以后下游戏都要上淘宝买个美国的Appstore账号?这不科学!

光腚的屠刀最初是砍向国内电影的,众所周知一部电影要在院线上映,必须经过光腚的审核,而这种审核又极其的主观和不透明,导致了国内电影市场充斥了各种主旋律电影和被阉割过的国外电影。

审核,导致了中国电影创新的不足,以及与民众喜好的脱节。


反观国外,用电影分级制度取代审核,很好地保证了电影创作者的自由,各种电影公司很早就开始了数据调研,各方面收集观众数据,确保拍出的电影,能够最大限度迎合观众的喜好。

这种自下而上,从观众喜好出发拍电影电视剧的公司,佼佼者是拍出了《纸牌屋》的Netflix。

Netflix不是一家传统的媒体公司,他是一家纯正的互联网公司。1998年Netflix在美国硅谷创立,两个创始人 Marc Randolph 和 Reed Hastings 都有IT行业背景。


Reed Hastings 原本是一个数学老师,在1991年创立了一家叫 Pure Software 的公司,主要的产品是开发一种给Unix和C程序员使用的调试工具。1997年Hastings将公司作价7亿美元卖给了另外一家软件公司,使他拥有了创立Netflix的原始资本。

而 Marc Randolph 最初是英国最大的电脑和IT设备零售商 MicroWarehouse 的联合创始人。

创始人的IT背景,让 Netflix 这家公司走的路,非常的与众不同,而他最与众不同的地方,在于他的电影推荐系统 Cinematch。



国内上Netflix需要翻墙,Netflix采用付费会员制,会员按月付费,付完就可以无限制地观看上面各种连续剧和电影(包括很多Netflix自制和独播的视频)。


香港的Netflix月付会员分基本、标准、高级三种,不同的地方在于是否可观看高画质的视频,以及是否可在多个屏幕(电视、PC、手机)观看。

购买会员后第一次登陆,会让你选择三个喜欢的影片,作为 Cinematch(Netflix的电影推荐系统)的初始数据源。

选择完会有一个缓冲页面,这时应该是在运行他们后台的推荐算法。

缓冲完需要选择是谁在观看影片,这也是一个 Cinematch 的初始数据输入,根据观看用户不同,推荐的结果也不一样。


整个页面非常简单,分为26行,里边涉及到推荐的主要是 给俊的最佳推荐、与《蝙蝠侠-夜神起义》类似影片 (我选择的三部电影之一)、与《纸牌屋》类似影片(我选择的三部电影之一)、与《心灵捕手》类似影片(我选择的三部电影之一)这4行。

其他都是一些公共的,如热门选择、惊悚影片、喜剧片等。



Netflix的订阅用户数目前已超过1亿,并且以每天几十万的速度在增长。

他的推荐系统 Cinematch 的数据源主要有以下8个:


上百亿的用户对视频的评分数据,并且每天以千万的规模增长,这是个很重要的输入数据,用户对视频的主观评分,反映用户的喜好。

每天上千万的播放数据,这些数据包括用户的播放时长、播放时间点、设备类型等。


如将视频添加进我的片单、将视频添加进播放列表等操作数据,反映着用户的喜好。

用户与网页的交互,包括鼠标点击、页面停留时长、鼠标轨迹等。

用户播放的视频的属性数据,包括导演、演员、类型、评论等。

Netflix与Facebook等社交网站打通,可以取到用户关联的Facebook账号的社交数据,如取到他们好友的播放记录,可实现基于好友的推荐。

每天上千万的搜索请求,包括用户输入的搜索关键字,以及最终用户选择的搜索结果等数据。

外部电影网站的数据,如影片票房、影评等。



Cinematch在上线前,会经过2轮的测试,分别是线下测试和线上测试。

Netflix内部叫 Top10 Marathon(前十的马拉松比赛),为期10周,线下不涉及用户地快速地检测数十种算法,提升前10个推荐结果的精准度。不同的人被邀请到一起,贡献想法,并编程实现。


线下测试的评价指标主要是统计上的指标,如预测的评分与真实评分相差的均方根等。

线上测试就是A/B Testing,通常会平行多个A/B Testing,同时实验几个算法和一些激进的功能改进。

线上测试的评价指标主要有3个,包括视频播放时长、用户停留时长、用户留存率。如果新的算法可以提升这3个指标,那么会认为新算法优于旧算法。

整个测试流程的图示:




从2006年开始,Netflix一直在举办Netflix大奖赛,这是一个机器学习与数据挖掘的比赛,目的是在全球征集算法,提升电影的评分预测准确度。

对于能将Cinematch系统的准确率提升10%的获胜团队,能获得100万美元的奖金。



Netflix积累了庞大的用户数据,这些数据让他成为世界上最了解用户的电影公司,也让Netflix从影片租赁、视频流媒体服务走上了自制剧的道路。

Netflix的《纸牌屋》风靡全球,而《纸牌屋》的诞生,也是基于数据挖掘。

在《纸牌屋》诞生之前,Netflix在对用户喜好数据的挖掘中,发现1990年BBC播出的英剧版《纸牌屋》在过去了几十年后的今天,依然广受影迷欢迎,用户播放数据居高不下。

并且发现这批观看英剧版《纸牌屋》的用户,观看最多的电影的导演是大卫·芬奇,演员是凯文·史派西,因此投入巨大的资金,押宝《纸牌屋》的重制,并且邀请大卫·芬奇作为第一季的导演,邀请凯文·史派西饰演第一男主角下木(Underwood)同志。

最终,重制的《纸牌屋》获得了9项艾美奖的提名,包括最佳剧集、最佳男主角、最佳女主角等。并且第一季度的《纸牌屋》,帮助Netflix新增了200多万个新的订阅用户。


从DVD租赁,到视频流媒体服务,到自制剧,Netflix依靠数据挖掘,成为世界上最独特的电影公司,也让他成为一家年销售额接近70亿美金,净利润达到1.3亿美金的巨无霸公司。

一键关注我的微信公号



一套SVIP课程,18选8,每套课程均价112知识付费的时代,一次旅游的钱便能收获8大全方位、多体系的课程

更有全场六折优惠课程,为你加油助力!

扫描下方二维码点击上面文字的蓝色字即可学习

422146107692239122.png

推荐 0
本文由 人工智能爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册