数据质量工具OpenRefine的入门简介

浏览: 3822

OpenRefine 目前是一个Open Source的数据质量工具,不过最近好久没更新了。由于<Web Scraping with Python>这本书提到了,所以了解了一下。

1.安装使用介绍

网站资源:

http://openrefine.org/

https://github.com/OpenRefine/OpenRefine

这个blog也很不错 https://blog.ouseful.info/tag/google-refine/

下载和安装

https://github.com/OpenRefine/OpenRefine/releases

下载OpenRefine v2.6-rc2版本

tar -xzf openrefine-linux-2.6-rc.2.tar.gz

#启动

export JAVA_HOME=/pythontest/jdk1.8.0_91

cd openrefine-2.6-rc.2

./refine

或所有ip可以访问

./refine -i 0.0.0.0

#访问地址

http://127.0.0.1:3333/

2.基本使用过程

用这个网页https://en.wikipedia.org/wiki/Comparison_of_text_editors的数据作示例

具体就看截图吧。

1. Explore Data

导入数据



2. Clean and Transform Data

选择过滤


正则表达式过滤


转换


字段转换



cluster


3.导出数据


4. 进一步学习

Reconcile and Match Data

使用Freebase矫正数据

不过需要添加服务,http://reconcile.freebaseapps.com/reconcile

具体可以看Using OpenRefine这本书

推荐 3
本文由 seng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册