利用八爪鱼采集器对京东商城上商品评论采集

浏览: 4970

案例说明:

 首先我们在京东上找一款商品,比如小米Note手机。

       其页面地址为:http://item.jd.com/1601991.html,该商品的ID号为:1601991。

       但是在抓取时,我们需要将地址进行变换,变为该款商品的评论地址:http://club.jd.com/review/1601991-1-1-0.html (这就是我们将用来采集的地址)

       变换规则:http://item.jd.com/商品ID号.html →http://club.jd.com/review/商品ID号-1-1-0.html

详细步骤:

下面我们所需要的采集工具就是八爪鱼采集器。

       首先打开八爪鱼采集器,将得到如下图的界面,点击快速开始。


然后点击【新建任务】。


然后选择相关的组,填写该采集任务的名字,以及备注里面填写采集的地址。然后点击右上角的【下一步】。


将流程设计器中的【打开网页】按钮拖到设计区。

然后在【页面Url】中输入要采集的网址:http://club.jd.com/review/1601991-1-1-0.html,然后点击【保存】。


然后将上图中打开的网页,拉到最下方的【下一页】处。


然后鼠标左键单击【下一页】,将出现下面对话框。


接着,我们鼠标左键点击【循环点击下一页】,点击【保存】。


然后点击打开网页中的第一条评论,将弹出下面对话框。


并点击【创建一个元素列表以处理一组元素】,弹出下面对话框。


然后点击【添加到表】。


点击【继续编辑列表】,同第一条评论一样,将第二条评论也添加进去,由于同时添加了两条相同的规则,所以后面的评论就智能的都添加进去了。


点击【创建列表完成】


点击【循环】。此处表示第一页的评论都可以采集下来了。下面我们需要把这部分的流程添加到【下一页】循环中,这样就可以把所有评论都采集下来。


将上面的【循环】拖到【循环翻页】中。



然后我们选择【循环列表】中的第一条评论,点击【流程设计器】中的【提取数据】,对第一条评论的相关指标进行提取。


然后我们左键单击网页中的第一条评论中的“心得”,将弹出下面对话框。


点击【抓取这个元素的文本】。


然后将【字段名称】中的字段1改为“心得”。

其它指标提取类似。


点击【保存】,然后【下一步】。


这个界面不管,直接【下一步】。


选择【启动单击采集(调试模式)】。


然后点击右下边那个朝右的三角符合,进行启动采集。


这时,我们的数据就开始采集起来了,如果数据较多的话,就需要采集一段时间了,这个时候我们可以先去忙其它的事情。


数据采集完成后,我们可以点击界面右下角处的【导出数据】,可以选择自己所需要的数据格式,这里以Excel格式为例。


下面就是我们最终采集出来的数据格式


推荐 2
本文由 数据小雄 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

八爪鱼用起来还是很方便的
请问为什么我的只能爬取到300条数据?

要回复文章请先登录注册