数据挖掘系列篇(26):无线搜索广告中的CTR预测

浏览: 2424

CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。本次总结主要从CTR的模型训练流程、CTR融合模型和效果等角度,重点把之前做的留个笔记。

1.CTR流程

Clipboard Image.png

训练流程主要包括:原始数据→特征工程→模型训练→线上排序

Data是原始数据,包括点击及查询日志,从这些原始数据里抽出一些特征,数据效果的统计,主要工作就是实时和离线日志的回流。

Feature包括查询特征、广告特征、匹配特征。查询特征是和查询词相关的特征,查询发生的地域、时间等。广告特征是指广告本身的信息,例如:来自哪个客户,是哪个行业的,它的关键词是什么,它的标题、描述、网址是什么等各种信息。匹配特征是指查询词和广告的匹配关系。

Model是会进行模型的训练,包括线性和非线性。CTR预估中用的最多的模型是LR(Logistic Regression),LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而去间接增强LR的非线性学习能力。工业界目前应用的比较多的是GBDT+LR(SMART/FM等)。

Online是模型在线下训练完后会到线上,线上Server会实时做特征抽取并预估。例如:线上实时收到查询请求后,就会知道查询词是什么。前面讲的Retriever server,它会召回一系列广告,并抽出相关信息,比如广告的标题、关键词、描述等信息,有了这些信息后会利用加载的模型给出预估CTR,最终会进行Rank排序,从而筛选出满足指定条件的一些广告进行展示。像热词、底纹词、最新资讯基本上都是这样的道理。

2.特征工程

一般的数据特征工程要结合公司自己的数据储备情况。主要从:

  • 个人属性
  • 社交关系
  • 资产等级
  • 消费能力
  • 信用等级
  • ...

3.模型训练

线性

优点:简单、处理特征量大、稳定性好,缺点:不能学习特征间的交叉关系,需要自己去设计。比较典型的如Logistic Regression,有开源的工具包,部署简单且效果不错。

非线性

优点:能够学习特征间非线性关系,缺点:模型复杂、计算耗时。

比如LR模型就算特征再多,它只是查表加在一起做指数运算就出来了,像GBDT就会非常复杂,导致计算过程比较慢。

而我们常用的方式就是结合GBDT可以寻找出比较显著的特征,放到LR模型中去训练更好的结果。GBDT与LR的融合方式,Facebook的paper有个例子如下图所示,图中Tree1、Tree2为通过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。

Clipboard Image.png

4.模型效果评估

离线训练的模型效果我们一般都是通过AUC来评估,实际的投放效果还是需要通过分桶测试A/B测试来完成。

Clipboard Image.png


5.参考文献

[1].Chapelle O, Manavoglu E, Rosales R. Simple and scalable responseprediction for display advertising[J]. ACM

[2]. 对数线性模型之一(逻辑回归), 广义线性模型学习总结

[3]. He X, Pan J, Jin O, et al. Practical lessons from predicting clicks on adsat facebook[C]. Proceedings of 20th ACM SIGKDD Conference on KnowledgeDiscovery and Data Mining. ACM, 2014: 1-9.

[4]. http://www.csie.ntu.edu.tw/~r01922136/Kaggle-2014-criteo.pdf

[5]. https://github.com/guestwalk/Kaggle-2014-criteo

[6]. 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT - LeftNotEasy - 博客园

[7]. dmlc/xgboost

[8]. xgboost: 速度快效果好的boosting模型

[9]. xgboost导读和实战.pdf_微盘下载

[10]. Ensemble Methods: Foundations and Algorithms (Chapman& Hall/Crc Machine Learnig & Pattern Recognition): Zhi-Hua Zhou:9781439830031

[11]. Kaggle : Display Advertising Challenge( ctr 预估 ).NET/hero_fantao/article/details/42747281

[12]. Richardson M, Dominowska E, Ragno R. Predicting clicks: estimatingthe click-through rate for new ads[C]. Proceedings of the 16th internationalconference on World Wide Web. ACM, 2007: 521-530.

[13].CTR预估中GBDT与LR融合方案 - 玉心sober - 博客频道 - CSDN.NET

推荐 0
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册