问个问题哈,假如hdfs中有10T数据,通过Hive来查询,此时要将hdfs中10T数据也入mysql,这样mysql是存不下10T数据啊,求解,是怎么个意思,没明白hdfs,hive,mysql三者具体的关系,求教,谢谢?

0
已邀请:
2

seng - 从事BI、大数据、数据分析工作 2016-10-08 回答

mysql用来存放hive的元数据库配置: 如表的字段定义和hdfs上的文件数据的对应关系
查数据的时候是不通过过mysql的,Hive直接访问hdfs上的文件,
一些其他工具也会利用hive 的metadata, 如Drill,但是查询引擎使用自己的而不是hive.
0

MarsJ - 大数据玩家~DS 2016-10-11 回答

楼上Seng总解释清了MySQL作为元数据的问题。
还请注意,1,HDFS存储数据是有副本的,1T的数据,如果副本是3,则需要3T的空间;2,如果是把HDFS某个目录下的数据导出到MySQL,那就另当别论

要回复问题请先登录注册