Excel应用系列之用Excel Power Query爬取网页数据

浏览: 1913

一、简介:

我是一枚小白,师从零一老师,用师傅的一句话与大家共勉:"时间是不会辜负你的"

二、说明:

1.Excel Power Query爬取网页数据的强大之处不仅操作简单,而且后期只需要一键刷新即可实时更新

2.中间获取数据的时候,我是根据自己的需求来勾选数据

3.由于贝贝网的特卖宝贝每天都更新,所以会造成您做案例的时候和我做案例中的宝贝会不一样,忽略就好,只要过程没错,案例中的宝贝不影响最终的数据效果

4.按照此方法,可以获取贝贝网其他类目的销售情况,以及其他同类网站的数据

三、具体步骤如下:

(友情提示:操作步骤很详细,看起来有点繁琐,但只要你动手做,其实很简单)

1.打开贝贝官网:http://www.beibei.com/

image.png

2.对着网页鼠标右键,点击"检查"

image.png

3.点击"手机标志"

image.png

4.按F5刷新网页,右边列表区点击"Network",再点击"clear"

image.png

5.左边网页点击女装,左边网页往下拉直到底部,右边列表区点击 "JS" 出现数据

image.png

6.点击"1-15","preview","martshows"

image.png

7.右边列表区中的"1-15"、"2-15"..."17-15"中的数据均为左边网页女装类目中的内容

image.png

8.点击"Headers",复制"1-15"、"2-15"..."17-15"所有的Request URL发现,链接中只有页码在变化,其他都不变,所以页码就可以作为一个变量

image.png

9.桌面新建Excel,"数据","从表格",勾选"表包含标题"

image.png

10.页码列的格式换成文本

image.png

11.添加列,添加自定义列,复制"1-15"Request URL,点击确定

Json.Document(Web.Contents("http://sapi.beibei.com/martshow/search/"&[页码]&"-15-woman_dress--.html"))

image.png

12.点击"继续","公共"

image.png

13.展开自定义列,勾"martshows",点击确定 (取消勾选使用原始列名作为前缀)

image.png

14.接着展在"martshows",勾选"brand(品牌)","buying_info(正在购买人数)","mid(店铺id)",点击确定

image.png

15.把"mid(店铺id)"的格式改成文本

image.png

16.切换到网页,点击第一个宝贝

image.png

17.左边网页往下拉直到底部,右边列表区点击 "JS" 出现数据

image.png

18.点击"263710-1-20...","preview","martshow_items"

image.png

19.列表区中"1-20"..."17-20"的数据均为左边网页中的内容

(左边网页里的内容,能在右边列表区中找到,此URL就是我们要找的URL)

image.png

20.点击Header,复制Request URL

image.png

21.切换到excel,把复制好的URL复制到"自定义添加列"中去

Json.Document(Web.Contents("http://sapi.beibei.com/martshow/item/v3/"&[mid]&"-1-20-hot-0--0-0--0.html"))

用"mid(店铺id)"替换"263710"

image.png

22.展开"自定义列",勾选"martshow_items",点击确定

(取消勾选使用原始列名作为前缀)

image.png

23.接着展开"martshow_items",勾选"iid(商品id)","price(折扣价)","price_ori(原价)","sale_tip(折扣)",点击确定

image.png

24.把"iid(商品id)"的格式改成文本

image.png

25.切换到网页,点击第一个宝贝

image.png

26.左边网页往下拉直到底部,右边列表区"JS"出现数据

image.png

27.点击"183682...","preview",列表区的数据均为左边网页中的内容

(左边网页里的内容,能在右边列表区中找到,此URL就是我们要找的URL)

image.png

28.点击Header,复制Request URL

image.png

29.切换到excel,把复制好的URL复制到"自定义添加列"中

Json.Document(Web.Contents("http://sapi.beibei.com/item/detail/new/"&[iid]&".html"))

用"iid(商品id)"替换"18368838"

image.png

30.展开"自定义列",勾选"sold_num(销量)",点击确定

(取消勾选使用原始列名作为前缀)

image.png

31.点击"开始","关闭并上载至..."

image.png

32.加载到"表",点击确定

image.png

33.至此,贝贝网女装销售数据获取成功!

image.png

推荐 0
本文由 零一老师 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册