从0开始,教你做数据分析15篇

浏览: 1173

image.png

如果不是研究技术流的朋友,可以关掉了,不用往下看了。

对爬取网页数据感兴趣的朋友,倒可以好好读下这篇文章,有难度,但对运营人员和数据分析人员来讲是挺有用的。

数据在前两年炒得很热,确实也很火热。因为对于电商而言,数据非常重要,所以越来越多的运营擅长数据分析。

但是,数据本身并没有价值,有价值的是我们从数据里面读取出来的信息。信息有价值,但不能落地,落地的是执行方案。执行过后,又会产生数据,以此循环。

image.png

所以,空有数据,没有分析方法,无用!

有分析方法,读取出来的信息不对,无用!

读取出正确的信息,没有落地方案,无用!

这个过程中,比较蛋疼的是数据一般是被污染的,比如刷单的虚假数据,因此在做数据分析之前,会有数据清洗的流程,排除脏数据、误差值等。

做一个可落地的解决方案不简单,不但要具备商业思维、经验,还要具备创新精神、冒险精神。大多数人哪怕解决了数据分析和商业策划这两个过程,也最终会卡在落地执行上面,可能根本没有足够的条件去执行这一方案。这就像一个漏斗,每一个环节都要卡掉50%以上的人,最终通过获得受益的少之又少。

image.png

可见数据不是万能的,有效应用数据需要具备很多条件,但是,没有数据是万万不能的!没有数据就只能凭经验,凭直觉,很难有效、快速地把这种决策能力教给他人,所以数据最重要的是能提炼出信息,并指导下一步的行为,最终通过数据反馈能够沉淀成知识,随后可以教授给他人。

包括大家现在在做的每一件事情,其实都是来源于数据,比如做微商的,是因为知道别人做微商挣到【不少钱】,才投入微商。【不少钱】虽然是个模糊的概念,但这个概念在每个人心里会具体化,可能小明会觉得这家伙挣了不少钱,顶多就一两万;小白会觉得这家伙挣了不少钱,至少有100万。于是小白就奋不顾身地投入微商了,在滚打的过程中了解到中间的一些节点,比如要5000个精准粉丝,30%的活跃率,才能挣到钱。小白于是就朝着这个方向去努力。

又比如,女性朋友近来狂吃海带,是因为看到一篇报道,每天吃海带,可以降低52%乳腺癌再复发的风险。

其实这个世界的道理就那么几个,很多东西都是相通的。所谓举一反三,其实很简单,但为什么依旧有那么多人学习却举步维艰?

我想是因为太多人缺乏实践精神,所有的知识如果没有实践,那都还是老师的,不能应用也就产生不了价值。

好!废话就到这里了,我最后再强调一下,我想要说的

1、 数据最终的意义是沉淀成知识

2、 一定要有实践精神

下面我们进入今天的主题,今天教大家如何找到出现在网页上,但却在页面源码找不到的数据,希望大家可以举一反三,其他平台的也是一样的操作。

我下面的截图用的浏览器是IE11。

以江湖策为例。

登陆江湖策http://liuliang.taobao.com/

右击查看源(有些浏览器是查看源文件)

image.png

我们登陆江湖策后,查看网页源码是看不到数据的,所以数据不是直接放在源码里面,但我们肉眼能看到的必然是有数据接口。所以,第一步,我们先找数据接口。

右击检查元素(有些浏览器是查看元素)

image.png

我们登陆江湖策后,查看网页源码是看不到数据的,所以数据不是直接放在源码里面,但我们肉眼能看到的必然是有数据接口。所以,第一步,我们先找数据接口。

右击检查元素(有些浏览器是查看元素)

image.png

随后弹出监控台

image.png

点击网络

image.png

这个时候里面是空的,并不是说这里没有东西,而是在我们检查元素的瞬间没有数据传输,这个时候,点击绿色的播放按键

image.png

然后按键盘F5键,点击后可以观测到

image.png

这个时候我们会发现一个页面其实是发生了数十个文件的传输才展示出来最终的效果。

在这个页面我们可以在左下角看到有37个项目,包含位图文件、json文件等,都是在网页加载的过程中传输的文件。我们要在这37个文件里面找到存放数据的那个文件。

那么,问题来了,我们怎么找到这个文件呢?

一般能储存数据的文件,是json文件,按类型排序,可以快速找到json文件

image.png

然后通过浏览里面的数据来确认。

先双击/rest/session/get/sellerinfo,然后查看响应正文

image.png

这个文件是存放卖家信息的,其实通过文件目录就能知道了“sellerinfo”就是卖家信息的意思。

那结果就毋庸置疑了,肯定是在/rest/uvinfo?page=1&sid=0这个位置,”uvinfo“就是UV信息的意思。

image.png

这里有很多Tab(标签/字段)

Cnt:访客计数

urlBaobeiId:宝贝ID

locationid:位置ID(地域编码)

day:日期

ip:访客IP

url:宝贝URL地址

uvNo:UV序号(第几个UV,从0开始计数)

locationName:地域名称

refType:传递类型(流量入口类型)

searchKey:搜索关键词

ref:传递参数地址(入口地址,就是买家在哪个位置点击进来的)

logTime:日志时间(小时:分钟:秒钟)

title:被访问的宝贝标题

提供的数据字段算是很丰富的,这个时候就可以从json文件里面把数据当下来。

通过以上的过程,我们知道数据是储存在json文件里面,要访问这个文件是通过url:http://liuliang.taobao.com/rest/uvinfo?page=1&sid=0,这个URL上面有个控制Tab,就是page,表示页码。

在VB里面,可以用下面的代码来获取数据


如果已经知道数据的详细item,那么可以直接搜索内容,比如知道要爬的数据里面有“女童连衣裙”这个关键词,直接搜索也可能找得到,只要数据本身是没有经过编码的。像下图是经过编码的数据,直接搜索关键词只会一无所获。

image.png

常见的编码有Utf-8、Gb2132、Unicode。上图的“\u”开头的就是Unicode编码的形式。以连衣裙为例

中文:连衣裙

Utf-8编码:%e8%bf%9e%e8%a1%a3%e8%a3%99

Gb2132编码:%c1%ac%d2%c2%c8%b9

Unicode编码:\u8fde\u8863\u88d9

另外还有双重编码这个东西,比如常见的,Gb2132+Utf-8,先来一次Gb2132编码,再来一次Utf-8编码,所以在解码的时候要反过来,先用Utf-8解码,再用Gb2132解码,如果解码次序错了就会导致解出来的是乱码。

Gb2132+Utf-8编码:%25c1%25ac%25d2%25c2%25c8%25b9

遇到有编码的数据,在将网页源码爬取下来之后,还需要对其做一次解码的动作,这样才能方便我们观察和使用。网上都有各个编程语言的解码模块可以下载。如果手工解码,可以用站长工具,Utf-9和Gb2132是用http://tool.chinaz.com/Tools/URLEncode.aspx

image.png

Uniconde是用http://tool.chinaz.com/Tools/Unicode.aspx

image.png

数据爬取下来之后,需要将源码里面的目标数据提取出来,一般常用的方法有两种,一种是字符定位解析,将数据提取出来。另一种是用类的方法。

今天就先到这里,下一篇继续。

最后,零一系列的表格大多数已经更新了。网盘地址:http://pan.baidu.com/s/1bn6HKnl,路径:数据分析->零一教程->工具。


PS:回复【文章】二字, 可以查看零一历史发布过的文章和分享的资料。

关注零一,请扫描二维码

推荐 0
本文由 零一老师 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册