【Friday BI Fly】2015年11月20日数据挖掘及用户画像微信直播文字版记录 【全程回放】

浏览: 6494

Clipboard Image.png

公告

【公告】周五BI飞起来,天善商业智能BI社区每周五下午举办问答社区在线答疑活动,每周五晚上举办行业、厂商工具、技术相关的微信在线直播活动。http://www.flybi.net/project/

下一期预告

【预告】下周微信直播的话题有:

1、零售行业的大数据平台如何落地,在落地前如何做阶段规划,如何应对挑战

2、零售企业如何要上BI选用什么工具比较好。

3、RFM分析在零售行业的应用

Clipboard Image.png

Clipboard Image.png

2015年11月20日 Friday BI Fly 微信直播主题 – 数据挖掘及用户画像

主持人:加入本群的同学们,感谢大家参加由天善智能举办的 Friday BI Fly 活动,每周五微信直播,每周一个话题敬请关注。

【群规】本群为BI 行业、技术、工具交流和学习群。不准发广告,只能发红包,发广告者一律移除微信群。

本次微信直播讨论内容:

1、数据挖掘在会员分析方面的应用

2、用户画像研究

嘉宾介绍:

宿痕(面包君)

上海南京数据分析联盟创始人,杭州创业谈TMT联合创始人,阿里支付宝资深数据分析师,我爱数据分析网创始人,5年大数据行业数据分析和产品从业经验,长期从事和专注于国内大型互联网公司零售电商、金融保险等业务分析与决策支持,在数据存储、数据处理、数据可视化、商业智能、网站分析和数据挖掘方面均有丰富的项目经历。目前主要负责阿里数据产品研发和数据化运营以及市场第三方数据分析需求、数据平台搭建等。经历:从南京到北京再到上海,再到杭州,一直在从事数据方面产品、算法、平台开发。

 个人专栏:http://www.flybi.net/people/lestat 

博客专栏:http://www.flybi.net/blog/dataman

Clipboard Image.png


Clipboard Image.png

SmartMining  

汪尚,Smartbi 数据挖掘产品经理。数据挖掘、商业智能、大数据从业者,负责产品设计、项目管理、咨询、培训等工作。专注该领域近十年,培训学员过万。
 个人专栏 http://www.flybi.net/people/SmartMining 

博客专栏:http://www.flybi.net/blog/SmartMining

Clipboard Image.png

Clipboard Image.png

话题一:数据挖掘在会员分析方面的应用

主持人:现在我们开始第一个话题的讨论: 1、数据挖掘在会员分析方面的应用,包括并不限于会员分级、精准营销、交叉销售、流失分析等。 我们有请汪总@汪尚先分享他的内容。

汪尚

今天的机会真的很好,我之前一直做的是线下的分析,今天能和支付宝的专家一起交流,刚好能够互补,也希望大家能够踊跃参与进来,把这个平台真正作为大家共同的学习平台。

在数据分析技术不断推陈出新、企业数据积累越来越丰富、大数据技术被应用越来越广泛的今天,对比国内外,重视的行业并不相同,我国仍然像之前那样重视信息化的还是像银行金融、互联网、运营商这些行业,而在零售、连锁经营(像百货、酒店、餐饮、药店、超市等)这些容易见效的行业却远不如国外。国外在这方面已经有20年的经验,像我们熟知的沃尔玛、肯德基、星巴克无不是以数据运营精细化管理。

由于这几年零售业发展面临的考验越来越严峻,国内一些企业已经开始重视对数据的应用。从这几年的发展来看,大数据挖掘在这些行业的应用主要存在这三方面的问题:

第一个问题:数据质量较差,这主要是之前对数据的采集和管理不够重视,我说的主要针对线下,电商除外,因为这些大的电商的数据质量还是很好的。

第二个问题:本身国内在这方面的人才就短缺,而这些行业的福利待遇相对银行、互联网等行业缺乏竞争优势,所以对相关人才的吸收能力不够。

第三个问题:国内在这些方面的经验积累不够,还需要加大投入探索。

今天我就围绕零售行业跟大家一起探讨数据挖掘在零售业的解决方案,尤其是在会员分析方面的应用。针对会员的分析,主要有三大类:

1.       如何进行会员分级

2.       如何进行会员营销

3.       如何进行会员挽留

接下来,咱们先针对会员分级进行交流,交流之前先了解一下会员的生命周期,如下图所示

Clipboard Image.png

一个顾客来了之后,一部分会成为会员,这部分会员之后有可能会变成活跃会员,也有可能会流失,而活跃的会员有的会继续活跃,也有的会变成沉默会员,沉默的会员有可能会被再次激活,也有可能会流失掉,这就是从顾客进来到最后可能保持也可能流失的大概生命周期。

那如何进行会员分级呢?会员等级可以分为两类:

第一种是我们常见的会员管理等级制度,如游戏等级、QQ等级等。这种会员等级和奖励体制是分不开的,是会员管理的核心机制。而这种等级的累计规则也是有引导性的,比如你希望你的会员多在线,就可以把这个作为会员,如果在乎客户的交易频次就可以把交易频次作为考核的一项。当然前提就是每一种等级得有足够的专属权限,这些要能够吸引会员,就像很多玩游戏的人为了快速升级天天都在坚持做任务。

第二种,是以业务分析主题为目标的会员分级。比如,在百货商场,针对百货的会员建立客户等级,可以分成五个等级:A级(一买一大堆组)、B级(成长空间较大组)、C级(常来常往组)、D级(别人家的顾客)、E级(看我不顺眼组)。以上5个等级分别表示:A表示的含义是忠诚度最高的组,生活需要的方方面面都在这里购买;B表示对我认同度较大且还有很大消费潜力的组;C表示时常来这里,也时常去别家买东西的组;D表示很少来这里买,主要去别家买的客户;E组表示对这里不满意而流失的客户。所以针对以上5个级别,每个级别都有运营措施,比如对E组的人重点做客户流失分析,对B组的人重点做向上迁移,加强B组向A组的转换,提高B组的消费量,等等吧。这两种体制相辅相成。线上第一种做的很好,有足够的重视,但是线下大部分做的不够好,很多大型的商场连会员信息采集都没有做好,又如何有足够的信息对这些会员进行分析。因此,完善会员分析首先应该完善第一种会员管理的等级制度。这也是我们最初给百货商场做会员分析遇到的一个难题。以上就是我对会员等级的两点看法,大家有什么要一起讨论的吗?

面包君

前面汪总把会员分级的基本情况都讲到了。我介绍下我们怎么做潜在用户、活跃和流失的吧。

Clipboard Image.png

这是用户的生命周期流程,我们就不多说。

潜在用户怎么做呢?就是怎么解决数据挖掘中的冷启动问题。常规我们有两个方式,1.经验判断:比如你推车主业务,前提是我要有车吧。比如你推理财产品,前提我有钱。2.海投,通过GBDT决策树做投放优化,通过不停的召回样本,定义正负样本,来做预测。

活跃怎么做的呢?数据挖掘中最传统的方法就是RFM,围绕用户的最近消费时间、消费频次和消费金额来说,而我们在定义用户分级的时候也常通过登录行为、交易行为、消费金额这样的维度来给用户成长值打分。应用到数据挖掘就是通过:1.模型 2.业务规则 来做用户活跃!1.前者通过模型来做分类问题,就是判断用户会不会用我们这个产品或功能,根据大量的历史用户行为数据。2.后者是什么意思呢,就是比如我都已经知道你这个月手机欠费了,当然拿到你的这个信息直接给你push一下手机充值的消费。

实际我们在做模型拉新和活跃的时候也发现。比如一般充值业务拉新模型的转化率是3%,活跃能做到30%。这也验证了为什么我们要做老用户活跃,拉新要做精准化,尽量少海投。

而针对流失的用户我们需要不需要挽回呢?我们之前零售测算过的成本发现通过挽回用户的方式得不偿失,成本很高。相比较潜在和活跃用户,流失用户是累觉不爱。比如我挽回他,需要5元,而他创造的价值可能就只有1毛。像关注公众号类似,我已经添加关注了公众号,并关注了一段时间,最终取消关注的情况大多是真心不爱。你再挽回有些强扭的瓜不甜。所以一般我们不会花太多的时间来做用户的流失挽回,得不偿失!!!

那么我们怎么看待我们的会员忠诚度和价值呢?

会员价值包括历史价值、当前价值、影响价值和未来价值。比例大致在2:5:1:2 。所以当你在给会员价值打分的时候,需要结合他多方面的影响来权重考虑。对应不同的业务,每个会员的得分都会不同,我们打分的模型常用LR/RF/MLR/PS-LR,最后决定给他推什么业务,会有融合排序的过程,结合这个业务的conversion%和modelaccuracy%,来说为什么不仅不是不操心用户流失,还可以是更担忧这样的问题!

特别是我们讨厌薅羊毛的用户,什么意思,就是他只是来领了个红包就走了!

有关会员分析其他方面的内容,大家可以看我写的一篇博客http://www.flybi.net/blog/dataman/2442

主持人:又到了我们自由讨论的时间了,同学们一定都等不及了,前面有几位同学有疑问都被我们打断了,现在你们可以把疑问抛出来了,嘉宾们会耐心解答的。

话题一自由讨论:

同学提问一:哪些指标可以衡量客户的活跃度?

C_活跃度除了消费次数和积分使用次数一般还能用什么数据去确定?

汪尚:如果是线上的话,还有一个方面可以衡量,就是用户消费的关联度。

瘦蚂蚱:消费关联度是什么含义?

汪尚:这个关联度,可以是该会员消费对其他人的带动,也可以指消费产品品类数。

ィ鬼:有什么比较量化的公式,或者比率来划分等级么?

瘦蚂蚱:这个就是从两个不同的维度来解释了

汪尚:嗯,对,很多指标的定义都和自己的业务目标有关

C_如果需要几个维度确实活跃度,这几个维度的权重如何确定。业务人员打分还是有什么方法?

汪尚:并不唯一,虽然很多有统一的标准,但是也该根据自己的业务特征建立更适合自己的计算规则。

汪尚:挖掘分析的指标确定可以是多维的也可以是单一维度的。

同学提问二:请问怎么识别伪关联?

面包君:关联出来的结果肯定要经过和运营、产品的人碰过之后得出的结论,数据方面的比如我们做关联分析的时候,置信度、支持度要大于多少,以及最终做出的分析结果是否和事实吻合,和啤酒与尿布类同。

布拉德:怎么判断分析结果和事实吻合呢

面包君:昨天我给杭州的一家App公司讲数据运营的时候也说道,我们怎么去做数据分析。数据是客观的、是事实,但分析是人的事情,是需要经验和判断的。

汪尚:这也是挖掘的难点之一

Rui业务和技术,比重大概多少?

金融:7/3

Rui还是业务重要多哈

同学提问三:线下的数据质量肯定比线上要差,对于质量差的数据,有什么经验的处理方法呢? By内心召唤

汪尚:其实数据质量差是普遍现象,我们应该更关心基于现有的数据如何把预测效果做的更好。数据质量的处理一般通过数据探索发现清除数据质量差的记录的规则,而很多时候数据的异常恰恰可以通过调研获取背后的业务原因,进而找到过滤和处理办法。

比如说我们做百货会员分析的时候,遇到这样的情况,有的人退货次数特别异常,也有的消费金额特别异常。比如有个会员,一年内退货金额达到19万多,还有的9个月内退货次数达到135次,我们细一分析,才明白这种情况是伪会员导致的。比如咱们去大多数商场购物没有会员卡也肯定可以打折,为什么呢?因为绝对有人愿意你使用他们的会员卡,这样可以帮他积分,也可以帮你打折、互惠,但是如果一个会员卡这种事情做多了。比如销售员的,那个这个会员卡代表的已经不是一个真正的会员了。所以在研究会员的时候必须剔除,那如果商场指定自己员工的会员卡排除掉这些是不是就可以了?遗憾的是商场并不掌握这个信息,也无法获取这个信息,怎么办?只有根据这种伪会员的使用特征,如一天消费次数达到多少以上,或者是否大量购买同一品牌等。但是这样肯定不能把伪会员去除干净,但是好在关系不大,只要剩下的对分析结果影响不大就好了,也就是挖掘的推断估计。

以上就说的是去伪的问题,其他的数据质量问题也大多如此解决。

C_如果数据分析结果比如关联分析结果与实际不符,那么该怎么办唉

汪尚:那就要想一个问题,为什么不符?其实这种情况出现正常,出现在应用的时候就不正常。模型或者规则获得后,一定要做重新分的模型测试和评估。如果测试结果不理想,就要反推原因,这是咱们深入业务分析的重点我们的业务能力也正是在这样反复的纠正和反思中得到不断提升的。之所以分析和实际不符,有个很大的原因就是数据会骗人。而且你被骗了,我们很多时候在初始分析的时候,忽略的数据产生的背景,一切数据已经过时了,但是我们没有注意到还是把它放到了分析数据中,结果就干扰了我们的分析结果。

C_比如说之前做的电器的关联。业务人员会认为空调跟厨卫关联性最大。但数据并不是这样。

汪尚:会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间。但是这并不唯一,也不绝对,在不同的商场里还是有差异的。

内心召唤:伪会员数量应该不会有很多吧?会影响分析结果吗,是否可以不用考虑剔除这些数据呢,只要多数数据是正确的应该就可以吧,我们看的是大体的趋势啊,不知道我这种观点对否?

汪尚:不会很多,但是影响很大

内心召唤:能说说影响是什么吗?

汪尚:因为他们的消费频次和消费金额普遍的大,显得普遍的“重要”。如果你验证出来和业务认识不一样,恭喜你,这就是你的成果。数据挖掘本来就有做数据验证的作用。

狗狗:去伪的时候有可能也会去掉真实的数据,所以这只是一个分析的方法,看的是趋势,而不见得是百分百的准确数据吧。

陈斌:关键还要能解释不一样 不然只会被怀疑呢

汪尚:如果您能再深入一下为什么如之前的认识不符时,恭喜你你又有了更大的成果,帮助业务也帮住自己更懂业务了。

同学提问四:数据采集的工作能否简化?

第二个寒字:会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间,您说的这些频次,金额,这些数据收集的工作量会很大,您们是如何简化这部分的工作,为后续的工作通用化?

第二个寒字:频次、金额,也有时间范围,比如一个月,三个月,十天,都有可能对结果产生差异,找寻特征是如果每个都考虑,将会是一个浩大的工程,您们是如何对这部分的处理进行优化的?

面包君:@第二个寒字 这些标签都需要建立用户标签库、行为基因库的。这些都是常用的特征指标。

Clipboard Image.png

汪尚:没有办法简化,我们其实针对百货会员派生了上百的字段,最终只是从这上百字段中找出了这几个重要的做的分析。

主持人:同学们互动气氛太好,嘉宾都很给力,我都不忍心打断大家,但由于时间的关系,我们不得不开始下一个话题的讨论了,不过各位的问题都可以提到问答社区数据挖掘板块http://www.flybi.net/category/43,虽然我们微信直播为了不影响大家休息,有时间限制,但天善问答社区的大门永远为大家敞开,大家有疑问的记得提到社区了,专家稍后会在那里解答你的疑问的,我们开始第二个话题吧 2、用户画像的研究。

话题二:用户画像的研究

面包君

用户画像我们主要是这6个维度。

Clipboard Image.png

这里面会大概有600多个标签,有原始数据、也有通过模型预测的。

Clipboard Image.png

比如你是多大、性别这些都是知道,但是你什么时候生孩子、什么时候结婚都是预测的。

用户画像做什么用?个性化,精准化营销!

方式有两种 ,一种是传统的BI的方式,描述用户画像的群体特征,比如我们的用户是理财小白,我们就要去想这些屌丝有什么习惯,给他们什么产品合适。

第二种方式就是机器学习,通过大数据训练的方式来做自动化的个性化营销。通过这些600多个特征的不同组合,训练出AUC大于0.7以上的model,再实测。

举个例子,就是我们在天猫logo做的“千人千面”。

每个广告推荐都是通过分析用户的历史行为,推断出用户最喜爱的品牌;当他来到网站时,在资源位上自动展现他喜爱的品牌logo。

Clipboard Image.png

基本思路:
要实现这个目标,需具备以下3个条件:
1) 建立一个logo库:存放品牌ID/所属类目/logo图片/跳转链接等必要信息;
2) 有一套业务逻辑&数据模型算法,分析计算出每个人可能最想看到的品牌;
3) 有一套产品支持:利用推荐引擎产品和前端开发实现对应资源位的个性化展现;

Clipboard Image.png

我们会每天喝着茶,思考着人生,看看这些不同model跑出来的效果。

资源位个性化推荐的方式,优点是能明显提升资源位的整体使用效率。但实际使用时需要注意以下几点:
1) 由于方法仅适用于投放素材相对固定的资源位;
2) 可供推荐的素材“库”要达到一定规模,算法才能体现出效果,否则会因为“人和内容匹配度不高”而无法达到个性化效果,如“库”仅20-30个素材,人工经验挑选可能效果更好;
3) 利用判断用户偏好来进行推荐的方式,其效果也与资源位所在页面的“用户识别程度”有关,“对用户身份识别度高”&“识别到的用户有较多历史行为”的页面效果更好,反之,如流量来源主要是外投的页面or新用户注册完成页面,则效果不明显。

而围绕用户画像的传统BI的做法,是建立数据监控体系,有个类似会员健康度的东东。

差不多是这些,欢迎补充。

主持人:用户画像的分享就先到这里,面包君讲的可都是真金白银啊,例子都是拿天猫举例,刚过去的双十一大家是不是还印象深刻呢,我对面包君讲到的“千人千面”印象可谓是深刻,双十一我看到的淘宝页面就是根据我历史的搜索记录生成的,当时心里是有点震撼的,同时又觉得很贴心,因为对我这种选择恐惧症来说,在琳琅满目的商品中,挑选出自己喜欢的东西,我感受到的不是购物的happy,而是眼花缭乱,头晕脑胀!好了,废话不多说,我们进入自由讨论环节:

话题二自由讨论:

同学提问一:现在网购很多都是一个帐号,然后以家庭为单位,也就是说shopperconsumer很多时候不是一个人,这种情况下一般都怎么处理?(by 春宇)

面包君:好问题!!!

林桐:面包君你们是怎么解决的,我也想听听。

面包君:这个问题也是我们在实际数据处理会遇到的。就是多个账号,多个不同用户,怎么去区别的。我们有个数据挖掘团队专门做这个事情,就是做自然人模型研究,他们还申请了专利。

黄晓帆:决战大数据这本书有提过这个问题。

林桐:也是同人模型啊。

Richie:这个就回到了第二个话题 用户画像 通过指标来分析,分组分情况对客户打标签。

面包君:我说的比较粗一些,通过媒介(常登陆手机、地点lbs、收货地址)、社会关系(给谁转账、给谁充值)、资金关系、手机通讯录等场景来做的同人模型。

:不能作为一个整体考虑吗?毕竟这个账号的所有使用者基本稳定。

春宇:@悟 是的,我这种小白也是考虑整体考虑,不想那么细了。

林桐:其实不关注是否是一个人。

春宇:关注需求。

林桐:对的,统一打标签。

春宇:但标签就没法画了,既买女士用品,又买剃须刀。

林桐:分业务场景也就是人群了。

面包君:

Clipboard Image.png

这个在社交场景应用的比较多,就是把你老婆和你小三要区分出来。

林桐:对于数据种类多样性大家都很重要,那么基于用户的数据打通成为关键,这个是阿里用户数据的核心技术。

林桐:在此基础上,所谓的家庭关系,室友关系都可以基于此建立做用户连接及解决了。

同学提问二:如何确定你的研究对象的特征呢?说说基本的方法和思路?比如说你要去挖掘分析一个你不熟悉的的行业。(by 内心召唤)

汪尚:企业用户标签的建立分三种第一是基本标签,如年龄、性别,第二是统计标签,比如消费金额、消费频次等,第三是预测标签,如流失概率、客户偏好等。三种标签的建设分三个步骤完成。

首先是两个方向,第一是以数据驱动,从表中提炼;第二是业务驱动,从业务角度想你需要什么标签。第二种如何以业务驱动,这个比较笼统,业务不同也就不一样,但是大致做法就是做业务分析,看看从业务决策上看需要什么信息,多方访谈。那我们主要说第一种,从表中获取,分三个步骤:

第一,从表中体现用户基本信息(如果是建用户标签库的话),这个简单,都能理解;

第二,梳理表的业务,派生统计指标,常用度数值型有求和、平均、最大、最小以及比例,对于分类型的计算众数,频数等,具体也要业务和经验多想。

第三,是面向分析主题见预测模型,进而获得预测指标。

这是基本思路。

悟:流失概率,如何得到?

汪尚:流失概率,就是首先定义了流失目标字段,然后派生影响指标,然后建立分类预测模型得到相应概率。

面包君:这也是我们在做不同的场景推荐的时候,需要思考的问题。

1.结合自身已有的数据,比如我就只知道你叫什么,我怎么去分析你的星座啊;

2.结合业务和经验,比如我们在做阿里天池大赛、kaggle,我们自己会发明一些时间滑窗方法、数据离散等等。

主持人:同学们你们太坏了!你们知道吗?知道面包君是支付宝的,就各种开始打听支付宝啊,这不是逼面包君犯错吗?哈哈,开个玩笑,不得不说支付宝/阿里巴巴的技术团队确实厉害,让我们提到这个公司的时候首先想到的不是业务不是应用,而是产品和技术,真真儿是让人佩服啊!

Clipboard Image.png

Clipboard Image.png

还有怎么就聊着聊着就聊到金融了,面包君还计划要开一个金融方面的专题直播,同学们拭目以待咯!

Clipboard Image.png

跟面包君学投资肯定没错的,看这大红包就知道了,哈哈

Clipboard Image.png


还有,还有,咱们这微信群人数上限是不是该提升一下啦,爱学习的同学们太多,每周五晚上三个群同时直播,太火爆了!

Clipboard Image.png

主持人:再次提醒大家,大家的疑问嘉宾没及时回答的或还有其他疑问的,都可以到社区提问,有一个专门的数据挖掘板块 http://www.flybi.net/category/43 面包君和汪总是我们这个版块的专家,相信大家的疑问在那里能找到答案!

Clipboard Image.png

主持人:预告一下,我们下周微信直播的话题有:

1、数据挖掘发展过程及介绍

2、数据挖掘的入门

3、数据挖掘的流程

4、主流算法简介

感兴趣的朋友快来报名吧。

参与方式

每周 Friday BI Fly 微信直播参加方式,加个人微信:liangyong1107 并发送微信:行业+姓名,参加天善智能微信直播。

Clipboard Image.png

天善公众号

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

推荐 6
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

学习了很多,很有深度的讨论。已加入组织。

要回复文章请先登录注册