数据分析系列篇(8):数据采集哪家强?

浏览: 2144

著作权归作者所有。

商业转载请联系作者获得授权,非商业转载请注明出处。

作者:宿痕

链接:http://zhuanlan.zhihu.com/dataman/20460642

来源:知乎

说到我们要做数据分析,没有米下锅怎么行?没有数据,我们还怎么做数据分析?

前几天有个哥们在现场就问我,说我们是一家创业公司,我们也非常想做数据分析、机器学习这些,但是我们没有数据啊!这可怎么办?我们也不懂这些数据从哪儿来,更不懂技术方面的东西,公司也就几个人,还都是从传统公司或者刚毕业的。

当时我就给他打了个比喻,这就有点像我们没米怎么煮饭一样。如果真的没米了,我们可以自己去种稻,也可以去菜场上买米,也可以拿其他东西和别人家做交换,也可以吃小麦。


那同样,我们没数据,那就要想办法去搜集数据啊。如果你是个spy man,那肯定也要各种搜集情报。

我们常见的数据收集分内部和外部两方面:

1.内部:

a)历史log日志+会员信息;

b)基于基础标签特征预测;

c)集团各业务、子公司数据等。

2.外部:

a)爬虫采集引擎;

b)数据购买;

c)合作公司数据交换;

d)收购兼并公司;

e)营销等手段。


针对内部已有数据这些自不必多说,谁都会。重点说一说我们常用的网络爬虫方式。

在这块数据采集基于本身需求的规模,如果是大规模的维护系统,可以用专门的采集引擎,比如基于apache服务器的nutch。

如果以填充网站为目的,觉得哪个网站的内容好,想借为已用,这种需求随机灵活,而对抓取量又不太高的采集,可以采集python的爬虫工具scrapy。

当然php也有可以实现各种网站抓取的方式,但是似乎没有成型的框架,因为抓取本质是基本网络协议,http什么的,所以你对这些协议了解的清楚,又懂一些脚本语言,基本都会画出一个可以实现你需求的采集的工具。但是效率就千差万别了。框架会提供你完善采集的多元素补充,你几乎涉及到采集应该处理的全部问题,它都给你提供了对应的方案,你有耐心死扣方案,总能读懂他传授你的意思,然后按理为之,就可以不断把自己的爬虫实现起来。但是采集只是数据处理的一个环节,采集之后如何对数据提纯精炼,基于自己商业化目的的导向,可能还涉及到知识产权等问题,当然这不是技术采集考虑的层面了。至于数据的分析,当然,我都是用python多一点,python提供了许多内置的math函数处理库,比如说numpy,scipy,matplotlib,这些网上都有对应的使用教程,入库或把采集到的数据按这些组件可以处理的格式保存,然后把数据导入进来,就这样折腾折腾。


另外对于初级用户,介绍下现成的工具:

火车头

火车头应该是国内采集软件最成功的典型之一,使用人数包括收费用户数量上应该是最多的

优点:功能比较齐全,采集速度比较快,主要针对cms,短时间可以采集很多,过滤,替换都不错,比较详细;

技术:技术主要是论坛支持,帮助文件多,上手容易。有收费、免费版本

缺点:功能复杂,软件越来越大,比较占用内存和CPU资源,大批量采集速度不行,资源回收控制得不好,受CS架构限制

发源地

可能大部分人还不知道,这是我自主研发的,以前一直用爬虫写程序,java、python等,后面觉得很麻烦,就捣鼓着要做的简单一些,然后就没法收手了,最近一直在进行产品迭代。

优点:功能聚合性强、速度快、saas架构、数据可预览、数据规则市场、api等多种输出方式、免费

缺点:知名度还比较低

三人行

主要针对论坛的采集,功能比较完善

优点:还是针对论坛,适合开论坛的

技术:收费技术,免费有广告

缺点:超级复杂,上手难,对cms支持比较差

ET工具

优点:无人值守,自动更新,适合长期做站,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,关键是软件免费,听说已经增加采集中英文翻译功能。

技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易

缺点:对论坛和CMS的支持一般

海纳

优点:海量,可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类

技术:无论坛 收费,免费有功能限制

缺点:分类不方便,也就说采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限

狂人

优点:非常适合采集discuz论坛

缺点:过于专一,兼容性不好。

附:

如何入门 Python 爬虫? - 爬虫(计算机网络)

Python 爬虫进阶? - 爬虫(计算机网络)

你是如何开始能写python爬虫? - 调查类问题

祝大家爬得开心!

推荐 1
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

关注中
梦蝶数据也不错,数据爬取 30秒上手,不懂网络爬虫技术,也能轻松操作,方便快捷运行爬虫,进行数据采集

要回复文章请先登录注册