电子商务数据分析

浏览: 1921

​通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。


下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。




一.背景介绍

这是Olist Store制作的巴西电子商务公共数据集。该数据集包含2016年至2018年在巴西多个市场进行的10万个订单的信息。

该数据集包含9个文件,分别是:

1)olist_customers_dataset.csv

此数据集包含有关客户及其位置的信息。使用它来识别订单数据集中的唯一客户并查找订单交货地点。

2)olist_geolocation_dataset.csv

此数据集包含巴西邮政编码及其纬度/经度坐标信息。用它来绘制地图并找出卖家和顾客之间的距离。

3)olist_Order Items Dataset.csv
此数据集包括有关每个订单中购买的商品的数据。

4)olist_Payments Dataset.csv
此数据集包含有关订单付款选项的数据。

5)olist_Order Reviews Dataset.csv
该数据集包括有关客户所做评论的数据。

6)olist_Order Dataset.csv
这是核心数据集。您可以从每个订单中找到所有其他信息。

7)olist_Products Dataset.csv
该数据集包括有关Olist销售的产品的数据

8)olist_Sellers Dataset.csv
该数据集包括有关在Olist完成订单的卖家的数据。使用它来查找卖家位置并确定哪个卖家完成了每个产品的出售。

9)product_Category Name Translation.csv
将商品名从葡萄牙语翻译为英语

每个数据集字段的详细介绍,可以从数据来源看到:

https://www.datafountain.cn/dataSets/22/details

二.提出问题

对数据集的关键指标进行趋势观察,暴露出所含的问题点,进而评估olist平台的运营情况以及需要改进的方向。分析思路从下面3关维度展开:

1.平台销售情况

平台上订单量最多的产品类是什么?

订单量最少的产品类是什么?

哪个价格区间的订单量最多?

订单变化量与交易额变化量的趋势?

客单价变化情况?

并根据2016--2017/2017--2018两个年度的信息来预测未来的订单情况。

2.物流交付表现

产品交付的平均时间以及准时率如何?

运费情况?根据此信息可以改进物流方式及派送方式。

3.用户信息

用户数量地理分布情况?

用户的评价情况?

常用的付款方式是什么?

不同消费组的消费情况是什么?

根据用户的评价如何改进平台的运营状况。

三.数据清洗

根据要分析的问题,对数据进行清洗。本次数据集中的表格较多(共9个),先根据要分析的内容去查看相对应的表格。例如:我想查看评论信息及打分情况,就去看olist_Order Reviews Dataset.csv这个文件。对每一个表格中所携带的信息先有一个大致的了解。

将9个表格分类,选择子集,列名与文件名重命名,整理清楚、规范。

观察数据中的重复值,异常值和缺失值。没有查到重复值,因为每一个订单号都是唯一的。异常值存在,缺失值也存在,如下:

灰色部分是缺失值,灰色下面部分是异常值(因为实际交货时间不可能早于发货时间)。对于此部分缺失值与异常值,进行删除处理,一是此为匿名公开数据集无法追溯数据源,二是这几个缺失值与异常值对基数很大的订单信息影响甚微。

对数据进行一致化处理:此数据集中内容比较一致,无需再次一致化处理。

使用IF函数来得到判断是否准时

这样,根据交货时间与发货时间的差,便可以用IF函数来判断是否准时到达,为方便后续可以在数据透视表中用来判断订单是否准时对情况。

四.分析


使用excel透视表,vlookup函数等功能可以得到要分析问题的结果。我们分别来看一开始要研究的问题。

1.平台销售情况

1)交易额度信息

2)订单变化量

3)客单价:

4)不同产品类的订单情况

2.物流交付表现

在此项中,只统计已成功配送至客户手中的订单。不计算尚未发货或取消发货的订单

3.用户信息

1)各州订单量及用户地域分布

2)用户评价

平台满意度打分情况如何,利用描述统计分析来表示得分概况及随时间变化的趋势

3)分析1-2分客户评论内容(词云图展示)

4)消费分组情况+付款方式占比

五.分析总结和建议

1.平台本身的销售额与订单量年度增长明显。但是从季度与月度情况细分下来看,目前处于增长缓慢的状态,需要及时的调整,获取未处于热图区域的用户。

另外,低消费人群庞大,但高消费人群的消费也需要平台方的引导,高消费人群的上升空间还有很高。

2.物流交付情况不乐观,是因为运费价格稍高,用户付出高价的运费却享受不到与之匹配的配送服务,导致1-2分的评价上升明显。平台对于物流方的运营需要共同探讨对策并及时调整。

3.客户满意度略微下降,主要集中在三个方向:

1)产品本身的质量问题,平台需要对所卖产品进行严格管控

2)物流交付问题,如果价格不下调,相应的就要提高服务质量,若服务质量很难得到满足,相应的运费价格,平台最好从运营的角度协助客户解决

3)要优化平台本身的应用程序,这部分可以结合AARRR模型来探讨各个环节的客户流失率,优化客户购买与售后体验。提升留存率与复购率

上面来自社群会员第2次修改后的项目

https://zhuanlan.zhihu.com/p/61309012


下面是项目修改意见:

【提问】老师,我那个数据集如果按AARRR漏斗模型(分析方法)来分析,有很多相关数据都没有,怎么办?

【回答】

1.分析方法又不只有AARRR漏斗模型,不是所有的分析都要按照一个分析方法模板去分析。选择分析方法是要根据数据和问题去选择的,不同的问题使用的分析方法不一样。

2.你的每个分析维度都是独立开的,没有把它们关联起来分析。数据要多角度去思考,既要独立去分析,也要把多个维度合起来一起看。

3.在第1次给出的意见:一开始分析没有写分析思路,不知道在分析什么,这次看到你加上了很好。

很多人刚开始学习数据分析的误区是,一上来就清洗数据,也没有分析思路,到最后分析完也不知道在分析什么。

工作中正常的分析数据流程是,在接到任务时,首先会和业务人员去沟通每个业务名称背后的含义,然后去思考指标之间的关系。会专业开会去讨论整个分析思路,再根据分析目的去找数据。如果数据不够,会让数据工程师设埋点来收取相关数据。

所以分析思路是要在一开始分析之前就已经确定了,然后再去找数据去分析问题。

4.在第1次给出的意见:PPT的背景太显脸了,加个蒙版来遮住背景,让文字更突出。这块看到已经修改好了。

需要继续改进的地方是,在写项目文章的时候,和用ppt做分析报告的场景不一样。

用ppt做分析报告的时候,面对的用户是听你讲,不用在ppt上放太多字,你把图片里的图表讲清楚就可以。

但是在写项目文章的时候,面对的用户是看你写的内容,所以这时候就不要把分析结论放到ppt里了,而是用ppt展示你的可视化图表,然后再用文字去描述图表要表达的分析结论是什么。

做项目的过程就是一个不断优化学习的过程,希望社群内部的讨论和建议可以帮助社群会员更好的完善项目。

推荐:如何用最短的时间找到初级数据分析师工作?

推荐 0
本文由 猴子聊人物 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册