有个问题请教一下:有一些数据是从互联网上爬取的,存放于hdfs中,想做一些数据统计或分析,后面有哪些方式实现?

0
已邀请:
0

regan - run! run! run! happy runner! 我是奔跑的小米~ 2017-06-16 回答

做数据统计或分析选择就多了。可以用R、Python、java等语言,将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案,选择还是比较多的,建议使用Spark计算引擎。
0

w卫东 - 数据仓库架构师,BI咨询顾问;权衡商业和技术。 2017-06-16 回答

如果这一系列的过程都基于大数据平台,那建议你将hdfs数据加载到hive里面,其它分析工具直接通过jdbc调用hive表即可。

要回复问题请先登录注册