你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

Kettle

kettle与hadoop配合使用

0

最近要做的一个项目任务是这样的：
有大量原始数据（百万条以上），需要对这些数据清洗之后再做一个聚类分析，现在目标是kettle跟hadoop结合使用。

我的思路是：利用kettle中hadoop控件将源数据存储在hdfs上（分布式结构存储，利用map-reduce实现），然后kettle利用hadoop相关控件实现聚类分析（同样是map-reduce实现）。

问题是：我不知道kettle中哪个控件是实现这方面功能的。

转换里big data控件是

QQ截图20160724142837.png

这其中mapreduce input和mapreduce output空间怎么使用？

job里big data空间是

QQ截图20160724142914.png

Hadoop Job Executor 和 Pentaho MapReduce 又该如何使用？

我不知道我的思路对不对？或者哪位大神能有详细的思路？要是能有具体的转换文件或job文件就更好了。。。

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

0 个回复

要回复问题请先登录或注册