阿里移动推荐比赛-数加平台的使用

发表: 2017-05-11 浏览: 1784

机器学习

前一段时间发表过一篇名为《天池新人实战赛之[离线赛]（完整）》的文章，今天这一篇为该篇的继续与加深。在《天池新人实战赛之[离线赛]（完整）》中的商品推荐模型是完全基于人工规则的，对于规则的制定有相当大的影响，而且一些动态规则难以挖掘。今天这篇文章介绍的是以阿里云服务的数据加工平台(简称：数加平台)为基础，利用机器学习方法实现更加准确的移动端商品推荐模型。

PS：这是将所学的机器学习方法理论应用于实践的很好的机会~~~~

￥1￥简单的介绍一下赛题的相关内容

天池新人实战赛是针对数据新人开设的实战练习专场，以经典赛题作为学习场景，提供详尽入门教程，手把手教你学习数据挖掘。天池希望新人赛能成为高校备受热捧的数据实战课程，帮助更多学生掌握数据技能。

本次赛题为《阿里移动推荐算法》，以阿里巴巴移动电商平台的真实用户-商品行为数据为基础，同时提供移动时代特有的位置信息，而参赛队伍则需要通过大数据和算法构建面向移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵，为移动用户在合适的时间、合适的地点精准推荐合适的内容。

￥2￥赛题与数据

￥2.1￥竞赛题目

在真实的业务场景下，我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中，我们不仅需要利用用户在这个商品子集上的行为数据，往往还需要利用更丰富的用户行为数据。定义如下的符号：
U——用户集合
I——商品全集
P——商品子集，P ⊆ I
D——用户对商品全集的行为数据集合
那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。

￥2.2￥数据说明
本场比赛提供100万用户的完整行为数据以及百万级的商品信息。竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据（D）,表名为tianchi_fresh_comp_train_user_online，包含如下字段：

Clipboard Image.png

第二个部分是商品子集（P）,表名为tianchi_fresh_comp_train_item_online，包含如下字段：

Clipboard Image.png

训练数据包含了抽样出来的一定量用户在一个月时间（11.18~12.18）之内的移动端行为数据（D），评分数据是这些用户在这个一个月之后的一天（12.19）对商品子集（P）的购买数据。参赛者要使用训练数据建立推荐模型，并输出用户在接下来一天对商品子集购买行为的预测结果。

￥2.3￥评分数据格式
参赛者完成用户对商品子集的购买预测之后，需要将结果放入指定格式的数据表（非分区表）中，要求结果表名为：tianchi_mobile_recommendation_predict，包含user_id和item_id两列（均为string类型）,要求去除重复。在本队伍所在项目空间中产出表即可，系统会按评测时间去自动扫描和评分。

￥2.4￥评估指标

比赛采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下：