用户画像—标签权重算法

浏览: 5493

image.png

感谢大家长期以来对专栏的关注,最近工作比较忙,好久没更新了。接下来的几篇文章想和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。

先举个场景,程序员小Z在某电商平台上注册了账号,经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为,该电商平台数据库已全程记录该用户在平台上的行为,通过系列建模算法,给程序员小Z打上了符合其特征的标签(如下图所示)。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品,总能在下单前犹豫不决时收到优惠券的推送,总是在平台上越逛越喜欢....

image.png

上面的例子是用户画像一些应用场景。而本文主要分享的是打在用户身上标签的权重是如何确定的。

image.png


如上图所示,一个用户标签表里面包括常见的字段如:用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度,如购买某商品>收藏某商品>浏览某商品>搜索某商品),行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。最后非常重要的一个字段是标签权重,该权重影响着对用户属性的归类,属性归类不准确,接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法:

1、基于TF-IDF算法的权重归类

TF-IDF算法是什么思想,这里不做详细展开,简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

image.png

比如说我们这里有3个用户和4个标签,标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重,公式如下图:

image.png

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1) 。 相应的IDF(P , T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某用户,这就使得该用户与该标签T之间的关系更加紧密。

image.png

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束,此时的权重是不考虑业务场景,仅考虑用户与标签之间的关系,显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下:

image.png

2、基于相关系数矩阵的权重归类

这个相关系数矩阵听title挺困难,其实道理十分简单。举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下:

image.png

那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性,当用户量、标签量级越多时,标签两两之间的相关性也越明显。

今天先聊这么多,大家可以留言交流。后面再更新 ...

推荐 6
本文由 watermelon 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

15 个评论

是用python吗
赵兄 您好 特意注册了一个号留言
最近在做新闻推荐 想请教一个问题
1、用户画像中的标签如何使用?如何根据标签计算用户的相似性?
2、你们的用户画像中标签的种类是固定不变的么?如果标签是动态增加的,而且是随意的,如何计算标签的权重?
3、标签库如何建立的?
如果你有空,盼回复,568072887@qq.com 谢谢
等待你更新博客
不是的,用的HQL
刚添加你了,麻烦通过一下
特意注册了一个号,本来是想进来在此针对所讲内容提出疑惑,结果发现站内有好多干货技术贴,非常感谢你们的网站对技术做出的分享。
用户的行为权重是否也可根据TF_IDF算法进行计算?感谢!!
您好,最近我也在做用户标签这块,看了您的这篇博客深受启发,请问您能分享一下代码吗?非常感谢,我的邮箱是352214952@qq.com,非常期待您的答复,谢谢!
可以呀
好呀,加你好友了
请加微信:15901188532,非常非常感谢,想进一步咨询人群画像细节算法。
想请教下,标签个数和行为次数之间的关系,一致理解有一次相关行为就被打上一次对应的标签;但是看上面的内容,两个是相互独立的。求指导~
微信:13295311058 邮箱:lifang724@126.com
您好,最近我也在做用户标签这块,想进一步沟通,我的邮箱是961695897@qq.com,微信:xunxueruchun
非常期待您的答复,谢谢!
您好,已购买您的用户画像课程,仍有一些疑问,关于标签个数和行为次数的区别?微信号 lizhonghui369928 ,望回复,谢谢!!
你好,特地注册的账号,可以请教一下问题吗,微信号13073785321,非常期待你的回复,谢谢!
你好,之前的做怎么样,可以请教一下吗,qq956180269,望回复,谢谢!
感谢您的分享。您好,我想咨询一下关于用户画像产品化的问题,能请教一下您吗?qq:1097923626,盼回复!

要回复文章请先登录注册