大数据的流式数据技术应用有哪些?

0
Storm,Spark和Samza各有什么特点?各自适用于什么的场景?在工作中采用哪种来说效率会高呢
已邀请:
0

MarsJ - 大数据玩家~DS 2017-01-09 回答

Storm和Spark Streaming区别是底层架构,Storm是一个独立的流式计算架构体系,Spark Streaming则集成在Spark上,可以结合Spark的其他核心组件如Spark SQL、MLlib一起协同组成PipeLine。目前貌似Storm性能稍稍好一点,但是从长远来看,Spark Streaming由于前面提到的特点,大数据团队的成员只需要基于Spark就可以同时去做交互查询、机器学习、流式处理等多种计算,Spark是一个比较通用的框架,对多种应用场景来说通用性比较好,而且开源社区比较活跃,最新的Structed Streaming性能也不差。从多场景的融合和学习成本来讲,Spark Streaming比较适合,若你的场景下只有流式计算,用Storm也未尝不可。
另外Samza没了解过。

要回复问题请先登录注册