Spark目前的瓶颈在哪里,还有希望解决么?

0
Spark当前很火哈,有木有行家来回答一下~~
抛砖引玉,比如
jvm方面的限制
内存浪费
任务调度方面
拓展性
等等。
已邀请:
2

Bob - 同程旅游大数据+BI 架构师 2015-10-29 回答

spark的任务调度方面可以选择配置yarn作为计算框架。
在任务依赖调度方面可以使用oozie来完成。最新版本的oozie工作流软件中有spark action类
 
spark的拓展性就不用说了,与Hadoop可以无缝衔接,也支持多语言调用api。
spark-stream 组件则扩展了对kafka 消息队列的操作,意味着可以实时输入数据
 
spark-sql支持sql的即席查询。另外在spark的基础上有blinkdb组件,能支持海量数据的查询,但是在结果上有一定的误差。
 
在jvm和内存方面则是新版本一直以来优化的重点。
0

seng - 从事BI、大数据、数据分析工作 2015-10-29 回答

这些技术上的问题都在后面的版本都有改进的吧。
我觉得主要问题还是和其他工具的生态圈完善上, 不只是和大数据工具‘也包括已有的BI工具。
我最关注的还是ad-hoc查询的问题是否能解决。
0

erlybt - 小白问题多 2015-11-19 回答

最近也在关注这块啊,学习啊。

要回复问题请先登录注册