请问数据管理方面用什么配合? 如何把海量excel结构化数据文件导入到hadoop里面去

0
已邀请:
2

Bob - 同程旅游大数据+BI 架构师 2015-11-20 回答

excel到Hadoop:
1.将excel转存为csv,然后上传到Hadoop中。如果多个excel,可以用程序进行批处理转换
2.利用Hadoop的mapreduce编程:
这个时候你需要自定义一个inputformat。
步骤参考:
a.创建一个excel读取共有类
b.实现一个自定义的excel inputformat类
c.编程实现一个excel map类
d.编程实现一个excel reduce类
 
在github上有类似的源代码供你参考:
https://github.com/sreejithpil ... duce/

要回复问题请先登录注册