Python数据科学:全栈技术详解3-长尾理论

浏览: 1738

Ben,多本数据科学畅销书作家,先后在亚信、德勤、百度等企业从事电信、金融行业数据挖掘工作。

配套学习教程:数据科学实战:Python篇 https://edu.hellobi.com/course/270


长尾理论是二八法则的延伸,用于描述不平衡的现象热门商品约占全部商品的10%,而热门商品中约2%的特别热门商品则带来25%的收入和3.3%的利润,这个结论是由大样本统计得出的。本节从社会中“流行”的概念开始介绍长尾理论。

3.1  社会中流行

在现代社会中,“流行”无处不在。比如每年都会有机构发布当年的流行色彩流行音乐排行榜流行贺岁电影等,而互联网上,新的流行语总是层出不穷

所谓流行”,就是某个东西在短时间内获得大量采用的社会现象。在社会的意义上可以将其视为人们对某种社会现象的接受与跟从,从群体的意义上可以将其视为社会文化的一个类型。如青少年中某种姿态的流行,可以将其视为青少年亚文化;最近讨论较多“杀马特”(smart)现象,可以将其理解为一种社会符号。

无论是哪种“流行”,总具有一些基本的特征,比如以下几点。

1奇性。无奇不流行,没有奇特之处,就很难流行。服装、音乐、行为、姿态、语言,只要是流行的,总有其奇特之处。

2涌性。流行总是在短时间内的爆发,过一段时间,就不再流行了。也许有些流行会有较长长时间的影响力,例如邓丽君的歌曲,但很难再次成为流行。

3替性。现代社会的“流行”,总是一个接着另一个,不断地变化着。“流行”始终更替存在。

3.2  流行的定量观察

1.幂律分布

以某网页浏览数据为例,给定一个网页集合,如下所示。

image.png

考察一个网页的入向链接数为的概率(占比),其近似服从律分布,入向连接数k(流行网页种类数的关系为:image.png

分布所示,其中横轴表示网页的流行度,纵轴表示网页种类。

image.png 

可以看到,入向连接数较大网页只有少数几个,对应于图中的右侧尾部;而大多数网页的入向连接数比较少,位于图中的左侧。即实际情况中,大量的网页无人问津访问量较少;而少量的网页的访问量很多,很受欢迎

2.幂律分布的原因

网页入向连接数呈现幂律分布的原因在于,大部分人只熟悉那些更容易为人所知(流行)的站点,从而导致了链接增多链接增多作为结果,又成为加强人们对它们的偏好原因,这样不断循环,最终流行的网站变得更加流行,不流行的网站变得更加不流行,这种效应可以被概括为富者更富”。

富者更富”的效应具有不可预测性,原因在于其在最初阶段充满不确定性,而到一定程度后就开始出现质变,成为流行

3.3  长尾理论

长尾理论是观察事物流行度的另一种视角。例如一些不同品牌的占比与销量(流行度)的关系服从幂律分布,如图所示。

 image.png

含义是少品牌的销量非常多,位于曲线的右侧尾部大部分品牌品销量较少,位于曲线左侧。这种情况发生于电商的购物平台

对于这些产品,我们可以将其分为畅销产品和利基产品。如果需要营销与推广这些产品,那么常见的营销策略有以下几种。

1.排行榜

排行榜的性质是按照流行度将产品排序并进行展示显然这种营销策略有利于推广畅销产品,倾向于”,不利于基产品。例如音乐排行榜,其无法推广不受欢迎的音乐。

2.相关性推荐

相关性推荐对于畅销产品与利基产品的作用取决于“相关性”的含义

如果是基于用户进行推荐,相关性被定义为用户之间的相似程度,对畅销产品推广能力要比利基产品的推广能力强,倾向于富者更富例如“购买了此类商品用户还购买了某类商品……”,这种推荐方式推广的商品很可能是畅销品而非利基产品,因为大多数人倾向于购买畅销品。

如果是基于商品或内容进行推荐,相关性就被定义为内容的相似程度,这种推荐方式有利于推广利基产品,例如“与此商品相似的商品有……”。这种推荐方式强调所提供的服务或功能相似商品,所以可以推荐不流行但功能、服务较为相似的商品

3.搜索引擎

搜索引擎本身可以依照搜索的关键字匹配商品其推广能力取决于用户本身商品的偏好显然这种偏好是随用户需求变化而变化。所以搜索引擎对于畅销产品与利产品的推荐能力是不确定的。

总而言之,长尾理论揭示了商品流行的一种现象,进行营销推广时,应注意畅销产品与利基产品差异那么关于推荐,数据挖掘能够提供怎样的方法呢?下一节对此问题进行解答

 

推荐 0
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册