kettle与hadoop配合使用

0
最近要做的一个项目任务是这样的:
有大量原始数据(百万条以上),需要对这些数据清洗之后再做一个聚类分析,现在目标是kettle跟hadoop结合使用。
 
我的思路是:利用kettle中hadoop控件将源数据存储在hdfs上(分布式结构存储,利用map-reduce实现),然后kettle利用hadoop相关控件实现聚类分析(同样是map-reduce实现)。
 
问题是:我不知道kettle中哪个控件是实现这方面功能的。
 
转换里big data控件是

QQ截图20160724142837.png

 
这其中mapreduce input和mapreduce output空间怎么使用?
 
job里big data空间是

QQ截图20160724142914.png

 
Hadoop Job Executor 和 Pentaho MapReduce 又该如何使用?
 
我不知道我的思路对不对?或者哪位大神能有详细的思路?要是能有具体的转换文件或job文件就更好了。。。
 

 
 
已邀请:

要回复问题请先登录注册