hadoop能管理的数据量大具体指什么?

0
数据量大有两种概念
1.文件特别多,几亿以上的,但是单个文件很小,MB级别的
2. 文件不多,几万以内,但是单个文件很大,GB级别的
这两种情况总数据量都挺大,那种数据类型适合用hadoop管理呢?
已邀请:
1

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-08-25 回答

这个要看具体的应用场景
单纯的从文件存储上来说,这两种情况,都可以使用hadoop来管理。但是hadoop在处理大文件上有很大的优势,默认的Hadoop的Block是64M,如果单个文件都很少,只有几M或者几百K,这个时候可以考虑使用文件归档,比如按照日期,业务类型等归档,将小文件合并为大文件。不用担心这样会耗时,或者处理不方便,Hadoop处理起来是很快的。

要回复问题请先登录注册