#数据案例#徘徊的大数据门前:五个真实的数据挖掘故事(三)

浏览: 2403

案例4:《纸牌屋》你学不会

      发挥你您的想象力,选择您认为可是的答案

Clipboard Image.png

 凭借一部片子咸鱼翻身,这样的桥段在当下热播美剧《纸牌屋》身上重演,反转剧主角是美国一家视频公司Netflix,它的武器则是大数据。

  首次进军原创剧就走红,Netflix不仅成为娱乐圈里的谈资,亦成为数据革命的代表。无论是《纽约时报》、《洛杉矶时报》还是最近一期的《经济学人》,严肃媒体们都在重要版面研究《纸牌屋》成功之道。获得如此密集关注,并非没有道理。《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及40多个国家大热。Netflix产品创新副总裁托德·耶林(Todd Yelin)称,其表现甚至“比我们最大胆的梦想都要好”。

Clipboard Image.png

事实是,美国“白宫甄嬛传”、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey),这些噱头只是用以吸引眼球的皮毛。最抓人的是,Netflix根据数据技术推导出《纸牌屋》的关键要素,喜欢BBC剧、大卫·芬奇和凯文·史派西的用户存在交集,这是多么酷的一件事。

  中国的乐视网一直关注Netflix的发展路径。“值得研究的是Netflix如何从后端数据推导出前台生产。”乐视网副总裁何凤云说。这种做法与旧传统是背道而驰的,以美国著名的有线电视网络媒体公司HBO为例,它对导演强烈的个性抱以完全的信任,全权委任导演去制片、编剧、挑选演员。而在中国,几大视频网站在自制剧时都有自己的选片团队,由他们为观众选择与确定导演,挑选剧本。

Clipboard Image.png

多年前,依赖于种种技术,Netflix对数据的记忆能力已经炉火纯青。当一位用户通过浏览器登录Netflix账号,Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来,暂停、回放、快进、停止等动作都是一个行为,每天用户在Netflix上将产生高达3000多万个行为,此外Netflix的订阅用户每天还会给出400万个评分,300万次搜索请求,询问剧集播放时间和设备。没错,这些都被Netflix转化成代码,当作内容生产的元素记录下来。其首席内容官泰德表示,所有这些数据意味着,Netflix公司已经拥有“可寻址的观众”。

  早年间,Netflix利用上述数据提供一项推荐引擎业务。比如说,数千万用户能在一个个性化网页上对影片做出1-5的评级,这些评级构成了一个巨大数据池,如今这个数据池容量已超过近百亿条。根据数据池,Netflix使用推荐算法来识别具有相似品味的观众,然后对这一群体做出相关内容的精准推荐。

  Netflix要将巨大的数据池变为生产力并非易事。长年以来,为了提高算法精准,它持续地举办大型比赛,来提高自己的数据挖掘能力。2005年底,Netflix曾开放一数据集,并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了超过48万个匿名用户对大约近2万部电影做的大约10亿次评分。

 

  Netflix一直在寻找与自身匹配的数据挖掘工具。据一位前Netflix云数据库架构师的博客回忆,在2010年Netflix完成了两次迁移,其一是将Netflix的数据中心迁移到了Amazon AWS之中,其二是将Oracle数据库迁移至SimpleDB。而到了2011年又从SimpleDB迁移到Cassandra,利用Cassandra提供的路由配置,集群可以被部署在多个大洲。忘掉上述专业术语,一个小故事足以说明它们的意义。法国电影《不要告诉任何人》在美国的票房收入惨淡,只有600万美元。可Netflix的工程师并不相信这个数字,他们通过上述数据挖掘技术,找到了不易察觉的点击量,而这些才是被隐藏的事实。2011年时,Netflix决定播放《不要告诉任何人》。如Netflix预测的一样,这部电影在播放后立即在最受瞩目的节目中排到第四位。

  然而,投资人并不看好Netflix的这些努力。投资人表面上相信Netflix的数据库是个大宝藏,但财务报表的数据呢?去年万圣节,Netflix董事长兼CEO里德·哈斯廷斯接到一位投资人电话,后者告知哈斯廷斯,他将从二级市场收购Netflix 10%的股份。投资人坚持认为Netflix气数已尽,这位投资人的计划是,进入Netflix董事会再建议哈斯廷斯卖掉Netflix。

  早期,Netflix是北美家喻户晓的在线影片租赁提供商,它的主营业务是通过邮寄方式租赁DVD的模式赚取利润。然而,在互联网时代这个盈利模式逐渐式微。于是,Netflix将主营转向在线流媒体播放,其商业模式是付费用户通过PC、TV及iPad、iPhone收看电影、电视节目。但在逐步放弃高利润率的DVD业务,彻底转型低利润率的流媒体业务后,Netflix却遭遇营收增速放缓、成本费用激增的困境。2012年第三季度,尽管财报中营收和每股收益均超出分析师预期,股价却依然暴跌。美国知名专栏作家撰文称“Netflix被收购或许才是投资者最理想的选择”。

  里德·哈斯廷斯别无选择。他决定反击投资人的短视,用事实告诉资本市场,数据不是花架子,而是地道的生产力。Netflix利用数据挖掘能力计算出可以赢的办法,1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权,请来导演大卫·芬奇(David Fincher),并由老戏骨凯文·史派西(Kevin Spacey)担当男主角。

  乐视网副总裁何凤云向本刊介绍,1亿美元买下的《纸牌屋》总共2季26集,计算下来单集成本约为400万美元,远远高于美国一般电视剧的单集制作成本——150万至200万美元,也只有《广告狂人》、《斯巴达克斯》这类热播美剧才能达到200万美元左右。算下来,对于Netflix而言,只有新增100万一年期合约付费用户才能收回上述成本。

  Netflix并非没有计算过豪赌的回报,这样做不仅可以带来新增用户,更为重要的是它为Netflix开拓了上游市场,走上了自制剧之路。在《纸牌屋》之后,还将有四部自制剧在2013年登陆Netflix。这意味着,Netflix可以逐步降低对版权费用日趋高涨的好莱坞剧的依赖。

  Netflix的故事,对于中国视频网站而言着实励志。他们与Netflix所面临的境遇相似:在美国国内,好莱坞的独家授权费用越来越高,版权成本上升导致资本开支加大。同时内容竞争越来越激烈,尽管在流媒体播放领域Netflix仍占据市场首位,但面临着HBO(美国家庭电视广播网)、Amazon(亚马逊)、Hulu、YouTube的竞争,它们都在加大内容投入。

  由于版权价格提升,国内知名的视频网站们,诸如优酷土豆、搜狐视频、乐视网、爱奇艺近两年也纷纷打造自制剧。

  据乐视网高级副总裁高飞对本刊透露,虽然去年上半年版权价格曾达冰点,但是现在又很快回升,从一线卫视购买电视剧,平均购买价格每集几十万,意味着买下一整部剧不下千万。在此局面下,拿下《纸牌屋》中国地区的互联网独家播放权的搜狐视频,不得不上调版权采购预算,其2012年的版权采购成本为5000万美元,但2013年这一预算上调到8000万美元。“但我们拍一个自制剧,成本基本上也就三分之一,甚至不到这个数。”高飞说。

  关键是如何制作自制剧?国内视频网站意识到数据的重要性,也积累了大量数据。比如乐视网通过分析用户收看时间,在今年推出午间自制剧场。“但真正细致到使用数据来决定导演、演员,中国还没有哪家公司敢说他们能做到这点。”何凤云说。

  此外,即便是有了数据,中国的流媒体公司还不敢像Netflix那样将宝押在一部剧上,因为中国的付费市场尚未成熟,目前还主要依赖广告盈利,无法完全将用户需求作为中心。“Netflix选择了这个项目,投巨资去做,就是博一个必须赢。”乐视网高级副总裁高飞对《中国企业家》说,“期待中国市场也可以通过付费收视足以覆盖成本,但这要寄希望于未来大屏电视以及电视平台产品和服务的成熟,以及付费市场的快速成长。”

  除此以外,一位视频行业的人士指出,在中国基于用户数据做出分析的同时,还要考虑广电审核的要素,一些领域与题材类型都要稍微收拢,“不是没法依赖数据,而是不能完全依赖数据,我们选择数据时也一定要结合中国国情。”

案例5:定制爱情

      发挥你您的想象力,选择您认为可是的答案

Clipboard Image.png

 宅男们总幻想为自己定制一个女朋友,也许他们的愿望将不日达成。不是借助3D打印机,而是靠大数据时代的婚恋网站。

  2012年底,网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点,主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”,花田不提供任何人工服务,从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE),也在换帅之后摩拳擦掌,试图用大数据的精准化运营,为在海量异性资料中疲于搜索的用户“指一条明路”。

Clipboard Image.png


 一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证,网站可获得用户真实姓名、年龄、性别、地区等身份证数据,对防止诈骗有一定作用。但如今各家都有,这种传统打法就过气了。毕竟有身份证的人,不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全,使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了。而这感性,又是建立在理性的数据分析之上。

  花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人,这就促使用户拿出更新微博的劲头来更新花田,为花田积累了大量可供分析的软性数据。

 Clipboard Image.png

“我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年,此前他的团队负责网易微博的研发,而他最早的工作是Oracle数据库管理。

  现在,他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格,实现“软硬兼施”的精准推荐。首先,他们运用切分词方法,从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中,2013年下半年会逐步投入使用。

Clipboard Image.png

 自2012年12月28日向全国开放注册以来,花田注册用户已近25万,每日活跃用户4万人。虽然发展迅速,但较之业界前辈,花田用户少得甚至吸引不来骗子。但网易的技术储备却不容小觑。“有道”搜索提供的自然语言处理技术,被用于通过文本挖掘用户性格。网易自研的原本用于网易邮箱的人脸识别技术,更是婚恋网站求之不得的利器。

 

  花田团队只有30多个人,大多是85后。他们在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型。再分析具体用户,将其分门别类套入各种模型。这样,用户心仪其中某一个人,便可向其推荐这一类人。

  这种模型不仅是性格模型,还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生,你输入范冰冰,就会推荐给你很多范冰冰脸型的女生。”夏天宇介绍,花田的后台已经提取出范冰冰脸型的数据,之后还会推出几十种流行的男女明星脸型供用户选择。

Clipboard Image.png


 更令人感兴趣的是,如果花田能够跨产品平台,结合网易门户、邮箱、游戏等其它网易资源进行大数据分析,是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢?真正的大数据必然是跨平台的,而这点别家很难做到。

  但跨平台数据提取在一定程度上又涉及用户隐私。大数据的底线在哪里?夏天宇认为,涉及到银行的数据绝对不可碰触。这个范围就很广泛。不过可以确定的是,网易不会在花田影响力和用户量都不足的时候开启跨平台数据分析。

  “我希望花田能盖一个五层楼,每层装不同类别的人。一个收入五万块的人进来,也不感觉这里有很多屌丝。”夏天宇这样描述自己对花田的愿景。虽然少了王子配灰姑娘的浪漫童话,倒也实实在在为用户省去不少筛选麻烦。

  数据分析不只可用于精准推荐,还能识别婚恋网站最为人诟病的造假和诈骗。2012年底,创始人龚海燕辞任世纪佳缘联席CEO后,另一联席CEO吴琳光担任CEO。吴琳光曾在空中网担任副总裁兼手机游戏事业部总经理。加入世纪佳缘后,他首先做的就是引入大数据来提高用户体验。世纪佳缘的数据分析团队开发出一套网警系统,由以往的被动等待用户举报骗子,改为主动出击。

 

  “对我们来说,花篮托儿和酒吧托儿的危害最大。”世纪佳缘CEO吴琳光介绍,这两种人的特点是希望长期运营,不会像真正的诈骗犯,令受害者报案。钱虽不多,却最让人恶心。

  酒吧托儿的特点是照片极美,却只有一两张。花篮托儿则是相貌堂堂、言语温柔的中年大叔,但只打电话不见面。忽有一天声称自己公司要开业,向女方求送花篮,骗个一两千块。他们的共同特点就是一上来便要联系方式,尽快离开网络平台,用电话这种难以管控的方式来建立亲密关系。

Clipboard Image.png

 通过对骗子这些行为模式的数据分析,世纪佳缘制作出一套骗子识别模型,已经投入使用。令人捧腹的是,吴琳光本人也曾因测试产品,被这套网警系统抓个正着,“我符合坏蛋的特征,上来就找女性直接要联系方式。”

  吴琳光向我们分享了一连串数据。比如,“剩女”大部分是生于1978年至1983年。

  “因为计划生育,这一段人口暴涨,她们对应的1973年-1978年的男性人口相对不够,和她们同龄的男性又被85后的年轻姑娘抢去了。”吴琳光说,2009年、2010年婚恋网站大爆发,正是因为这帮人到了必须结婚的岁数。

  又如,世纪佳缘正在尝试联运页游,越是在世纪佳缘里收不到信的人,玩页游的越多。
数百年前的媒婆们绝想不到,若干年后,一群技术出身的工程师们用冷冰冰的数据为痴男怨女保媒拉纤。

  然而技术男们纵然辨得出喜恶,抓得住流氓,却也有棘手的技术难题,比如人脸识别。对外貌的判断感性而且私人化,向来是婚恋网站的难点。世纪佳缘一直在努力寻找合适的面部识别软件,但难度很大。吴琳光表示,他们正引入一款能够识别相似脸的系统,从用户过往的选择数据中总结归纳用户喜欢何种脸型,给用户推荐类似脸型的人。

  花田虽然背靠网易大树,即将推出人脸识别功能,但这一技术目前止步于脸型识别。花田试图将更高级的人脸识别,如五官识别、夫妻相匹配作为自己的增值服务收费点,尚有待进一步的技术突破。

  对于人类这样复杂的动物,数据究竟能做到什么程度?吴琳光说自己的理想是让用户一注册世纪佳缘,看到的推荐异性就个个都喜欢。但从身边常听到的各种抱怨看,实现这个目标尚需时日。



推荐 0
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册