OpenRefine 目前是一个Open Source的数据质量工具,不过最近好久没更新了。由于<Web Scraping with Python>这本书提到了,所以了解了一下。
1.安装使用介绍
网站资源:
http://openrefine.org/
https://github.com/OpenRefine/OpenRefine
这个blog也很不错 https://blog.ouseful.info/tag/google-refine/
下载和安装
https://github.com/OpenRefine/OpenRefine/releases
下载OpenRefine v2.6-rc2版本
tar -xzf openrefine-linux-2.6-rc.2.tar.gz
#启动
export JAVA_HOME=/pythontest/jdk1.8.0_91
cd openrefine-2.6-rc.2
./refine
或所有ip可以访问
./refine -i 0.0.0.0
#访问地址
http://127.0.0.1:3333/
2.基本使用过程
用这个网页https://en.wikipedia.org/wiki/Comparison_of_text_editors的数据作示例
具体就看截图吧。
1. Explore Data
导入数据
2. Clean and Transform Data
选择过滤
正则表达式过滤
转换
字段转换
cluster
3.导出数据
4. 进一步学习
Reconcile and Match Data
使用Freebase矫正数据
不过需要添加服务,http://reconcile.freebaseapps.com/reconcile
具体可以看Using OpenRefine这本书