旅游行业做精准推荐详细解读之熟悉业务场景、整合服务资源、推荐框架设计、数据准备、数据预处理、推荐算法等全方位分析

发表: 2015-12-14 浏览: 4346

推荐系统

卢育峰：推荐的介绍

大家好，我是卢育峰，途牛任职。说到推荐系统，我就流程方面来大致讲一下推荐的过程。

先说个题外话，大家平常都听音乐，不知道大家用QQ音乐多不多？之前用的酷狗还有咪咕神马的。现在我经常用QQ音乐，为什么呢？因为它有个功能非常的吸引我，没错就是它的猜你喜欢，它经常会推荐一些很好的音乐，有时候会推荐一些很让人惊喜的音乐，让人喜欢使用它的功能，这是从自身感觉到的推荐的魅力。

现在大家每天都可以收到各种推荐，新闻啊，游戏啊等等。例如：亚马逊、eBay、京东的商品推荐，Facebook的好友推荐，腾讯QQ朋友圈推荐，豆瓣猜你喜欢，网易云音乐等。

撇开行业来说，推荐已经被应用的很成熟了，已经有一些开源的推荐系统Mahout、EasyRecd、RapidMiner等大家有兴趣可以去网上查查看。

当然使用这些开源的平台也需要一定的开发工作量，目前有很多企业已经将推荐做出了很棒的效果。相信大家都用过京东购物啊，我现在已经是黄金会员了。以京东的推荐系统来说，为京东整体带来近10%的订单量，表现非常的出色。

这就是好的推荐带来的商业价值。如何基于大数据的环境下实现个性化推荐，实现千人千面，吸引用户转化订单，是推荐需要达到的目的。

推荐可以做的产品有很多：猜你喜欢、个性化push、买了还买，看了还看，热门推荐等等，不同的推荐产品基于的场景也不相同，纵观各大主流的旅游网站如：途牛、携程、去哪儿、同程、驴妈妈等，除了热销的产品推荐之外，均有猜你喜欢这样的个性化推荐产品。

下面简单说一下我们做推荐系统的过程：

熟悉业务场景、整合服务资源

首先，我们要对我们做推荐的目的非常明确，没错就是提高转化率，提高商业价值，这是我们要做推荐的目的。其次，就是要清楚自身的资源情况，有多少服务器，有多少人力去投入。再次，需要了解业务场景，清楚什么可以做推荐什么不需要做推荐，推荐需要做到什么程度。最后，预先对数据的复杂程度及数据量级别有个估计。从数据计算层面来说：每天只有1GB的数据，几台机器就可以搞定了。如果每天有几百TB的数据，那么几台服务器就基本很难处理下来。基于这些基本状况的了解，对推荐系统也可以有一个大致的简单流程，如图所示：

Clipboard Image.png

主要分为三个流：

1、实时推荐，能在用户访问的时候，迅速调整规则集合，尽快响应用户的访问行为提升推荐产品的更新效率和合理性。

2、近实时推荐，矫正实时推荐的产品的错误率，能更好的推荐相应产品。

3、离线推荐，提供丰富的离线推荐产品，有利于规则模型的训练。

结合三种推荐方式能很好的提升推荐的实时性、准确性及多样性，同时在考虑服务资源的时候需要周全。

先定义个大概的流式框架，下一步是技术选型。

数据准备

首要考虑的是业务场景，其次是数据，其实两者都是一样重要的。

推荐的核心是数据，第一步我们要了解数据，我们有什么的数据，我们还能获取什么数据，根据相应的数据才好了解合适的推荐算法。

先说一下我这边推荐有准备的数据，主要有6个来源。

1、网站行为：搜索、浏览、下单、支付、收藏等

用户访问网站或者APP各种操作行为，这些操作行为可以为离线和事实提供很好的支持，不同的操作行为也具有不同的用户意图，用户的行为倾向也是可以从中识别的，尤其是在线行为能快速更新较为落后的规则，加强推荐的及时性。

2 用户画像：注册填写，出游相关补充信息

用户画像是通过用户的基础属性、社会属性等经过挖掘提炼所获取到的，用户画像带有行业特征，不同行业的用户画像的倾向点不同，旅游行业自然是会带有旅游相关的标签了，比如：出游行程长短、目的地类型偏好等，这些属性对某些推荐可以进行权重配比，对重排序也可以作为feature来用。

3、产品标签：目的地方向提炼，产品主题抽象等

产品标签是推荐的非常核心的属性，旅游行业主要几种在行程的主题概念的提炼、目的地的划分、日程、价格等。主题主要凸显在旅游的特色，类似蜜月、亲子、毕业以及留学等等，这些主题的划分能很好的从时段归纳产品的类别，给各个时段的用户推荐；目的地划分可以划分出境、国内、当地等，对有出境意愿的用户，我们可以仅仅只推荐出境相关的产品；产品的其他几个属性也是比较影响模型训练的，如：价格、团期、行程安排。

4、负反馈：取消收藏、负点评、取消订单、投诉等

用户的负面反馈反映了某些方面给用户带来不好的体验，可能是产品的质量或者产品的服务，有可能是某些旅游产品看了一段时间出游的团期没有合适的，然后取消关注。这些负反馈可以用于对某些feature降权，或者可以作为feature用于模型的训练，以减少推荐不合适的产品，提高用户的体验。

5、UGC（UserGenerated Content）：点评、攻略、游记、BBS等

通过用户对产品的点评、游记体验以及产品攻略的分析，用文本挖掘或者分词技术可以提取非常多的关键词和用户特征，可以用于用户的情感分析和个性化标签。

6、其他数据，有一些数据是比较难以获取的，比如社交信息等。若想获取社交信息，可以基于一些营销手段来刺激用户相互推送消息来获取社交关系，或者从第三方获取到相关信息。

以上是一些数据来源准备。遇到的两个难点就是，一个是用户画像，如何打上合适的标签，另外一个是旅游行业有团期的概念（出游日期），对产品的团期和价格的前期处理也尤为重要。

数据预处理

光有数据也不行，还需要高质量的数据，高质量的数据可以提高推荐的效果，数据预处理也算是一个大工程，有效的预处理能使得数据挖掘事半功倍，一般底层数据存在空缺、不一致、重复、含噪声、维度高等问题，如果不把这些问题处理掉，会对整个挖掘的效果产生一定影响。数据预处理包含数据清洗、数据集成、数据变换和数据归约几种（其中部分是在做数据收集的时候就可以操作的）。

数据预处理的人工干预是非常多的，少数部分还是需要特殊办法去处理，其中数据集成、空值填补、归一化等用的比较多。数据预处理不多说，想了解的可以私下交流。

0 个评论

要回复文章请先登录或注册

旅游行业做精准推荐详细解读之熟悉业务场景、整合服务资源、推荐框架设计、数据准备、数据预处理 、推荐算法等全方位分析